- Hoofdstuk 1. Inleiding
- Hoofdstuk 2. Tabellen en diagrammen
- Hoofdstuk 3. Grafieken en presentaties
- Hoofdstuk 4. Analyse en beschrijving van data
- Hoofdstuk 5. Steekproeven in de praktijk
- Hoofdstuk 6. Kansen en mogelijkheden
- Hoofdstuk 7. Discrete variabelen en investeringen
- Hoofdstuk 8. Continue variabelen
- Hoofdstuk 9. Verdelingen
- Hoofdstuk 10. Schattingen
- Hoofdstuk 11. Significantie
- Hoofdstuk 12. Conclusies trekken
- Hoofdstuk 13. Het vergelijken van populaties
- Hoofdstuk 14. Analyse van de variantie
- Hoofdstuk 15. Chi-kwadraat toets
- Hoofdstuk 16. Simpele lineaire regressie en correlatie
- Hoofdstuk 17. Meervoudige regressie
- Hoofdstuk 18. Modellen opstellen
- Hoofdstuk 19. Geen parameters
- Hoofdstuk 20. Tijdsreeksen en voorspelling
- Hoofdstuk 21. Statistische processen beheren
- Hoofdstuk 22. Beslissingsanalyse
- Hoofdstuk 23. Conclusie
Hoofdstuk 1. Inleiding
Door middel van statistiek kan men informatie uit data verwerven. Er zijn verschillende manieren om dit te doen.
Descriptive statistics houdt zich bezig met het organiseren, samenvatting en presenteren van data op een informatieve manier. Dit kan bijvoorbeeld door middel van grafieken.
Inferential statistics zijn methodes die gebruik maken van een steekproef. Een relatief kleine groep wordt dan als samenstelling genomen om de rest van de populatie te vertegenwoordigen. Deze manier van werken geeft een globaal beeld over de werkelijkheid.
Men weet pas de precieze data als men ieder lid van de populatie zou ondervragen, maar dit is tijdrovend en doorgaans onmogelijk.
Statistical inference problems bestaan uit 3 factoren, namelijk:
Population
Dit is een groep van items die van belang zijn voor het vraagstuk (hoeft niet per se uit mensen te bestaan)
Een beschrijvende maat voor een populatie wordt een parameter genoemd, bijvoorbeeld het aantal stemmen bij presidentsverkiezingen.
Sample
Dit is een subgroep die uit de populatie naar voren komt. De data (statistiek) afkomstig uit de subgroep wordt gebruikt om betekenis te geven aan de parameters.
Statistical Inference
Dit is het proces van het maken van een aanname, voorspelling of besluit naar aanleiding van de data die uit de populatie verkregen is.
Aangezien deze data bij een kleine groep wordt verkregen, die een veel grotere populatie vertegenwoordigd is de informatie niet altijd betrouwbaar. Om de betrouwbaarheid te meten zijn er twee begrippen:
Confidence level
Deze meet of de meting ook nog betrouwbaar zou zijn als deze heel vaak wordt herhaald.Significance level
Als het doel van de meting het trekken van conclusies over een populatie is, dan meet de significance level hoe vaak de conclusie verkeerd zou zijn op de lange termijn.
Voorbeeld: stel dat er geconcludeerd wordt dat Bush de verkiezingen met meer dan 50% zal winnen, met een significance level van 5%, dan betekent dit dat deze conclusie 5% van de keren dat de proef herhaald wordt, fout zal zijn.
Hoofdstuk 2. Tabellen en diagrammen
2.1 Types data en informatie
Het doel van Statistiek is het verkrijgen van informatie uit data. Er zijn verschillende types data en informatie.
Enige begrippen:
Variabele: in diverse onderzoeken is een variabele te vinden. Dit is dan ook het gegeven wat interessant is voor de onderzoeker. Bijvoorbeeld het gemiddeld behaalde cijfer op een examen; niet elk behaald cijfer is hetzelfde, dus is in dit geval het cijfer de variabele factor.
Waarde: de waardes van de variabelen kunnen verschillen. Als men het cijfer als variabele neemt, kan deze op een tentamen van 0 tot 10 variëren.
Data: zijn de geobserveerde waardes van variabelen in een onderzoek. Als men bij een tentamen als waarde 0 tot 10 aan kan nemen, maar de werkelijk behaalde cijfers variëren van 4,1 tot 9,8, dan zijn alleen de behaalde cijfers data.
(Data is het meervoud van datum, 1 cijfer zou een datum zijn.) Niet alle data zijn alleen maar cijfers, er zijn 3 soorten data:
Interval data: dit zijn reële getallen, zoals hoogte, gewicht, inkomen en afstand. Dit wordt ook wel kwantitatief of numeriek genoemd.
Berekening: alle soorten berekeningen zijn mogelijk.
Nominal data: dit zijn categorieën. Bijvoorbeeld of men getrouwd is, een partner of kinderen heeft, etc. Dit zijn dus geen getallen maar met woord beschreven categorieën. Vaak wordt deze data weergegeven met voor elke status een cijfer. Dus: Alleenstaand: 1, Getrouwd: 2, Gescheiden: 3, etc.
Dit soort data wordt ook wel kwalitatief of categorisch genoemd.
Berekening: het is niet mogelijk om met nominale data te rekenen. Dit komt omdat de getallen tussen bijvoorbeeld 1 en 2 in het bovenstaande voorbeeld, niets betekenen. Bij numerieke data is dit wel het geval. Wél is het mogelijk om de frequentie erbij te vermelden, wat de cijfers al meer betekenis geeft.
Ordinal data: dit soort data lijkt heel erg op nominale data, maar is geordend. Bijvoorbeeld: Zeer slecht, Slecht, Matig, Redelijk, Goed, Zeer goed. Hierin is een volgorde aan te brengen.
Berekening: Met dit soort data is het wel mogelijk om te rekenen, mits er een ordening aanwezig blijft. Zo is er bijvoorbeeld de mediaan, die in het midden van alle gevonden
data ligt.
2.2 Grafiek- en tabeltechnieken voor nominale data
Zoals eerder vermeld, is rekenen met nominale data alleen mogelijk als men frequenties vermeld. Dit kan je doen, door middel van grafieken of tabellen.
De tabel die ontstaat als je de data en frequentie bij elkaar zet, wordt de frequency distribution genoemd. Een relative frequency distribution is dezelfde tabel, maar dan de verschillende data in procenten van het totaal. Zie de volgende tabel:
Area | Frequency | Relative Frequency |
Accounting | 73 | 28.9% |
Finance | 52 | 20.6 |
General management | 36 | 14.2 |
Marketing/Sales | 64 | 25.3 |
Other | 28 | 11.1 |
Total | 253 | 100 |
Deze data kun je gemakkelijk in een bar chart (staafdiagram) verwerken. Aangezien dit de gegevens grafisch maakt, is er een duidelijker overzicht dan wanneer de getallen in een tabel staan. Ook kun je een pie chart maken, die doorgaans eerder gebruikt wordt voor relative frequencies.
In Bijlage 2.1 staat een afbeelding van een bar chart.
In bijlage 2.2 staat een afbeelding van een pie chart.
Deze grafieken worden gebruikt om getallen met categorieën te verbinden, zodat men deze eventueel met elkaar kan vergelijken.
Een voorbeeld kan worden gegeven van bierconsumptie. In bijlage 2.3 is de bierconsumptie per capita aangegeven voor20 landen.
In bijlage 2.4 is een bar chart gemaakt van deze gegevens.
2.3 Grafiektechnieken voor interval data
De belangrijkste grafieksoort die gebruikt wordt voor interval data is het histogram. Dit is hetzelfde als een staafdiagram waarbij de frequentie links staat, maar in dit geval staan verschillende getalintervallen horizontaal (in plaats van categorieën bij nominale data).
Bij interval data krijg je lijsten met data die op zichzelf weinig zeggen. Deze data worden dan in intervallen ingedeeld, waardoor je de frequenties per interval overzichtelijk kunt maken.
De frequenties die bij de intervallen horen, kun je gemakkelijk in een histogram zetten. Hierdoor ontstaat een overzicht waarin je in één oogopslag kunt zien, welke uitkomst het meest voorkomt.
Om te bepalen hoeveel intervallen er ongeveer gebruikt moeten worden, bestaat
Een skewed histogram heeft een uitloper naar links of rechts. Wanneer een histogram positively skewed is, begint de grafiek links hoog en loopt lager naarmate hij naar rechts gaat. Het kan ook zijn dat het laagste punt links zit en hoger uitloopt naar rechts (negatively skewed).
Modale klassen komen het meeste voor van alle klassen. Een unimodal histogram is een histogram met één piek. Deze hoeft niet per se symmetrisch te zijn.
Een bimodal diagram heeft twee pieken, die niet per se even hoog hoeven te zijn.
Een unimodal histogram die wel symmetrisch is, is een speciaal geval. Deze komt later aan bod.
Stem-and-leaf display
Omdat een histogram belangrijke verschillen binnen een klasse niet weergeeft, heeft John Turkey een stem-and-leaf display ontworpen. Deze geeft alle klassen weer, met daarachter het aantal variabelen wat binnen de klassen mogelijk is.
Stem Leaf
0 0000000001112222333333444445555555666666677778888999
1 00011112222333444556678899999
2 0011111112222333444445556677789999
3 00001111111223334444444555666667789999
4 00112223333344444555666677788899
5 00001111112223345566777778889999
In klasse 0-1 komt 0,0 negen keer voor. 0,1 komt drie keer voor, 0,2 vier keer, etc.
Zoals je ziet, ligt de stem-and-leaf diagram nu op zijn rechterzijde.
Ogive
Er is al eerder gesproken over een relative frequency distribution. Hier is ook een grafiek van te maken. De delen tellen zich dan op, zodat uiteindelijk 100% op de horizontale as bereikt wordt, en men weet hoeveel data er in totaal (verticale as) was.
Deze grafiek is handig, omdat je in één oogopslag kunt zien dat bijvoorbeeld 70% van de studenten 60 punten of lager heeft.
2.4 Beschrijven van de relatie tussen twee variabelen
Met voorgaande technieken hebben we steeds situaties met 1 variabele geëvalueerd (univariate). Er zijn echter veel situaties te bedenken waarin twee variabelen een rol spelen (bivariate).
Een contingency tabel (ook wel een classification table of cross-tabulation table genoemd) wordt gebruikt om de relatie tussen twee variabelen te beschrijven.
Een voorbeeld van een contingency tabel uit het boek (blz.53, ex.2.8)
Newspaper | Blue Collar | White Collar | Professional | Total |
G&M | 27 | 29 | 33 | 89 |
Post | 18 | 43 | 51 | 112 |
Star | 38 | 21 | 22 | 81 |
Sun | 37 | 15 | 20 | 72 |
Total | 120 | 108 | 126 | 354 |
In deze tabel worden twee variabelen met elkaar vergeleken, namelijk het beroep en de krant die gelezen wordt. Deze manier van onderzoek komt veel voor in de praktijk.
De grafiek waarin de relatie wordt weergegeven is het scatterdiagram.
Dit diagram geeft alle gevonden data weer als stippeltjes. Hierdoor ontstaat globaal een richting waarin de grafiek gaat.
Aangezien je globaal de richting weet, kun je een rechte lijn trekken door het diagram. Als de meeste puntjes zich op en rond deze lijn bevinden, kun je spreken van een linear relationship. Hoe verder de stipjes er vanaf liggen, hoe zwakker het verband tussen de twee variabelen.
Als variabele B toeneemt als A toeneemt, spreken we van een positive linear relationship.
Als variabele B afneemt als A toeneemt, spreken we van een negative linear relationship.
Beschrijven van tijdseries-data
Er bestaan cross-sectional data. Dit komt voor als je meerdere dingen op hetzelfde tijdstip onderzoekt. Dit kan bijvoorbeeld op de huizenmarkt zijn, hoe de relatie ligt tussen de verkoopwaarde van het huis en de grootte van het kavel.
Ook kun je onderzoeken hoe de prijs varieert door de jaren heen, dit heet time-series data.
De waarde komt dan op de verticale as van de line chart, en de periode op de horizontale as.
Hoofdstuk 3. Grafieken en presentaties
Uitslagen van onderzoeken kan men duidelijk maken door ze in een grafiek te verwerken. Om dit te doen, zijn meerdere manieren mogelijk. Hier hoort een term bij, namelijk: graphical excellence. Dit houdt de mate van kwaliteit van de grafieken in. Grafieken kunnen ook gebruikt worden om de lezer te misleiden.
Goede grafiek:
De grafiek presenteert veel verwante data beknopt maar duidelijk
De bedoeling van de grafiek komt goed over op de lezer
De grafiek moedigt mensen aan om variabelen te vergelijken
De vorm van de grafiek laat de data zelf nog steeds de bovenhand voeren
Er is geen misleiding of onduidelijkheid wat betreft de data
Bij het gebruik van grafieken komt vaak graphical deception voor. Dit is het misleiden van lezers door middel van een aangepast grafiek. Let dus bij het aflezen van een grafiek goed op de assen. Ze moeten evenredig verdeeld zijn (in verhouding staat met elkaar) en duidelijk de werkelijkheid weergeven.
Ook de staven in het staafdiagram mogen in dikte niet verschillen, omdat dit een verkeerd beeld schept.
Stappenplan voor het schrijven van een verslag:
Maak je onderwerp duidelijk
Beschrijf het experiment
Beschrijf de resultaten
Gebruik hierbij bijvoorbeeld grafieken, maar niet als deze vervangbaar zijn door een tabel of een zin.
Bediscussiëer de grenzen van de gebruikte statistische technieken
Stappenplan voor het maken van een mondelinge presentatie:
Ken je publiek
Beperk je punten tot het onderwerp, conclusie en aanbevelingen
Hou je aan de tijdlimiet
Gebruik grafieken
Zorg voor handouts
Vormen van histogrammen
Het doel van het tekenen van histogrammen is net als bij andere statistieke technieken, om informatie te verkrijgen. Wanneer de informatie bekend is, kan een beschrijving worden gegeven van hetgeen ontdekt is. De vorm van een histogram kan verschillende karakteristieken hebben.
Symmetrie geeft aan dat bij het trekken van een verticale lijn door het midden van het histogram een spiegelbeeld ontstaat, waarbij beide zijden identiek aan elkaar zijn.
Bijlage 3.1 bevat een afbeelding van symmetrische histogrammen.
Helling
Een schuine histogram heeft een lang eind aan de linkerkant of rechterkant. De helling kan positief of negatief zijn.
Bijlage 3.2 bevat een afbeelding van een historgram met een positieve en negatieve helling.
Modale klassen
Een modale klasse is de klasse met het grootste aantal observaties. Er bestaan unimodale en bimodale histogrammen. Bimodaal geeft aan dat er twee verschillende verdelingen aanwezig zijn.
Bijlage 3.3 bevat een afbeelding van een unimodale histogram.
Bijlage 3.4 bevat een afbeelding van een bimodale histogram.
3.4 grafische presentatie
Grafische uitmuntendheid wordt bereikt wanneer de volgende karakteristieken aan de orde zijn:
De grafiek presenteert een grote dataset bondig en duidelijk. Grafische technieken worden gebruikt om een samenvatting van de grote dataset mogelijk te maken. Kleine data sets zijn samengevat met behulp van een tabel.
De ideeën en concepten van de statistische onderzoeker worden op een manier duidelijk gemaakt waarbij de concepten op de juiste manier worden toegelicht. De grafiek is ontworpen om een beschrijving te geven van een fenomeen in data. Een uitstekende grafiek is ene grafiek die bij wijze van spreken duizend woorden kan vervangen en toch te begrijpen blijft voor lezers.
De grafiek moedigt de kijker aan om een vergelijking te maken van twee of meer variabelen. Grafieken geven een variabele weer met weinig informatie. Grafieken kunnen he best gebruikt worden om een relatie tussen twee of meer variabelen uit te leggen en waarom bepaalde resultaten zich hebben voorgedaan.
De weergave spoort de kijker aan om de inhoud van de data te bekijken. De vorm van de grafiek is bedoeld om de inhoud te helpen presenteren.
Er is geen verstoring van wat de data weergeeft. Er kan geen statistische techniek worden gebruikt door zomaar iets te zeggen. Een lezer met kennis kan daar doorheen kijken. Decepties werken in dat geval niet.
Deceptie
Het gebruik van grafieken en charts is overtuigend in bijvoorbeeld kranten en tijdschriften. Toch kan er manipulatie aan de orde zijn zonder dat men dit weet. Een doorsnee lezer is niet in staat om door deceptie heen te kijken. Daarom is het belangrijk om kritisch naar informatie te kijken en te evalueren of er enige waarde in de informatie zit. Het eerste waar naar gekeken kan worden is de schaal op de as. Een lijndiagram van de omzet van een bedrijf kan een groei van 100% aangevenover bijvoorbeeld vijf jaar. Bijlage 3.5 bevat een voorbeeld waarbij de grafiek niet van toegevoegde waarde is, omdat er geen waarde op de y-as staat. Dit maakt de informatie onbetrouwbaar en voegt geen waarde toe. Misleiding kan ontstaan door het niet vermelden van de betreffende informatie op de y-as.
Hoofdstuk 4. Analyse en beschrijving van data
Methodes om het centrum te localiseren
Er zijn verschillende technieken om data met nummers te beschrijven. Zoals eerder is uitgelegd, valt er met interval data goed te rekenen. Hier bestaan dan ook de meeste technieken voor. Na de interval data komt ordinal data, waar ook nog enkele technieken voor te beschrijven zijn. Dan blijft er een enkele techniek over voor de nominal data.
Er zijn drie verschillende maten om het centrum van een groep data te vinden.
De arithmetic mean, wordt ook wel gewoon de mean genoemd, maar nog duidelijker als het gemiddelde.
Berekening: de som van alle verzamelde data delen door het aantal van gevonden data.
De median (mediaan), is het middelste van alle data.
Berekening: plaats alle gevonden data in volgorde (toenemend of aflopend) en dan is de middelste waarneming de mediaan. Staan er twee cijfers in het midden (bij een even aantal waarnemingen) is het gemiddelde tussen deze twee de mediaan.
De mode (modus) is de waarneming die het meeste voorkomt (de hoogste frequentie).
Berekening: plaats alle zelfde waarnemingen bij elkaar en kijk welke het meeste voorkomt.
Bijlage 4.1 bevat de formule voor het gemiddelde van de populatie en de steekproef.
Welke methode is het beste om het centrum van de data te vinden?
Het meest gebruikt is het gemiddelde, maar soms is de mediaan beter. Het is namelijk zo dat de mediaan minder gevoelig is voor extreme uitschieter dan het gemiddelde. De modus is zelden van goede toepassing.
De drie methodes zijn echter niet voor alle soorten data bruikbaar. Zie de onderstaande tabel.
| Modus | Mediaan | Gemiddelde |
Kwalitatief → nominaal → ordinaal
| ja ja | nee ja | nee nee |
Kwantitatief → interval → ratio →discreet → continu | ja ja ja | ja ja ja | ja ja ja |
De geometric mean is het gemiddelde op een aparte manier berekend (meetkundig gemiddelde).
Maten van variabiliteit
De range (bereik) is het gebied tussen de meest uiterste resultaten. Dit is dus de grootste observatie min de kleinste observatie.
De variantie wordt berekend door middel van de standaarddeviatie. Standaarddeviatie in het kwadraat wordt namelijk de variantie. Om de variantie te berekenen moet er onderscheid gemaakt worden tussen de populatie en een steekproef.
Bijlage 4.2 bevat de formule voor de variantie van de populatie en de steekproef.
Bijlage 4.3 bevat een voorbeeld voor eht berekenen van de steekproef variantie.
Bijlage 4.4 bevat de formule voor de shortcut steekproef variantie. Deze formule wordt gebruikt voor grotere datasets en nemen veel tijd in beslag.
Een voorbeeld voor het berekenen van de steekproefvariantie:
De voglende nummers zijn zomerbaantjes waar zes studenten zich voor hebben aangemeld:
17 15 23 7 9 13
Het gemiddelde wordt als volgt berekend:
17+15+23+7+9+13 = 84 = 14 banen
6 6
Zie bijlage 4.5 voor de berekening van de steekproefvariantie.
De standard deviation is de wortel van de deviatie zoals die hierboven is uitgelegd.
Populatie standaarddeviatie:
Steekproef standaarddeviatie:
Als je het gemiddelde en de standaarddeviatie in een proef weet, kun je al veel meer.
Als het bijbehorende histogram klokvormig is, kun je de empirical rule gebruiken.
Zo’n 68% van alle verzamelde data valt binnen 1 standaarddeviatie van het gemiddelde.
Zo’n 95% van alle verzamelde data valt binnen 2 standaarddeviaties van het gemiddelde.
Zo’n 99,7% van alle verzamelde data valt binnen 3 standaarddeviaties van het gemiddelde.
Percentielen
Het P’de percentiel is de waarde waarvoor P procent minder is dan de waarde, en (100 – P)% groter is dan die waarde.
Stel dat je een tentamen hebt gemaakt en je ligt op het 60e percentiel van de uitkomst. Dit betekent dan dat 60% van de cijfers onder jouw cijfer ligt en 40% erboven.
Voor het 25e, 50e en 75e percentiel bestaan er speciale namen;
25e percentiel: lower quartile Q1
50e percentiel: second quartile Q2
75e percentiel: upper quartile Q3
Zo kun je percentages ook nog indelen in quintiles (vijfde delen) en deciles (tiende delen).
Een formule om deze delen uit de rekenen:
Als je dus het 25e percentiel wilt weten van een steekproef van 8:
. Het 25e percentiel ligt dus tussen de 2e en 3e datum, op een kwart afstand van de tweede.
Boxplots
Boxplots zijn grafieken van data, je ziet hier een voorbeeld van op blz. 110 van Statistics.
De waargenomen data worden in de grafiek als lijn geplaatst. De middelste 50% (Q3 – Q1) van de waarnemingen, komen in de box. De lijnen die uit de box steken, tot de uiterste waarnemingen, worden whiskers genoemd.
Bijlage 4.6 bevat een afbeelding van een boxplot.
Maten van Lineaire verbanden
Met de covariance kun je de relatie uitdrukken tussen variabel x en y.
Als de twee variabelen samen stijgen of dalen, is er een positieve covariantie.
Als de twee variabelen in tegengestelde richting reageren, is er een negatieve covariantie.
Als er een slecht aantoonbaar verband is tussen de variabelen, is de covariantie een klein getal.
Naast de covariance bestaat er ook nog de coefficient of correlation. Dit is de covariantie gedeeld door de standaarddeviatie van de variabelen.
Bijlage 4.7 bevat de formule voor het berekenen van de correlatie coëfficiënt.
Bijlage 4.8 bevat een voorbeeld voor het berekenen van de correlatie coëfficiënt.
De uitkomsten kunnen lopen van -1 tot 1. Bij -1 is er een negatief lineair verband, bij 1 is er een positief lineair verband en bij 0 is er geen verband.
De least squares method is een methode die ervoor zorgt dat de lijn getrokken door het scatterdiagram betrouwbaar is.
Spreidingsdiagram
Een spreidingsdiagram helpt om directe relaties te kunnen begrijpen. De covariantie en de correlatie coëfficiënt beschrijven de lineaire relatie.
De figuren in bijlage 4.9 geven achtereenvolgend verschillende relaties weer. De eerste diagram geeft een sterke positieve relatie weer tussen de variabelen.
De variabelen in het tweede figuur geven een sterke negatieve correlatie weer.
Het spreidingsdiagram in het derde figuur geeft geen correlatie weer. Er kan geen verband worden geconcludeerd tussen de weergegeven variabelen uit dit figuur. De samenhang ontbreekt.
Minste kwadraten
Wanneer een spreidingsdiagram wordt gepresenteerd, wordt duidelijk gemaakt dat het belangrijk is de kracht en de richting te meten. Er kan zelf een lijn getekend worden door de punten om een lijn te creëren. Echter kunnen verschillende mensen allen een andere lijn tekenen en dit is dus niet een volledig betrouwbare weergave.
Om te weten wat de vergelijking van de lijn door de punten heen is, is een formule nodig. Er is een objectieve methode nodig om een beschrijving van de gewenste functie te kunnen geven. Deze methode bestaat en heet de least squares methode.
De formule is als volgt: zie bijlage 4.10.
Om de variabelen in deze formule te berekenen zijn eveneens formules opgesteld.
Bijlage 4.11 bevat de formule voor het berekenen van de coëfficiënten van de lijn.
Vergelijken van data
Grafische technieken worden gebruikt om een beeld van data te geven. Wanneer de data duidelijk is weergegeven is het mogelijk om vergelijkingen te maken. Hierbij mot rekening worden gehouden met verschillende factoren. De wijze waarop de data wordt geïnterpreteerd en de soort data die van toepassing is, dragen bij aan de keuze bij een vergelijking en het gevolg van een interpretatie.
Hoofdstuk 5. Steekproeven in de praktijk
Parameter: een maatstaaf voor een populatie
Statistiek: een maatstaaf voor een steekproef
Target population: groep mensen waar je iets over wilt weten
Sampled population: groep mensen die je test
Parameters zijn erg moeilijk te berekenen omdat ze over een te grote groep mensen gaan. Om toch bij deze data in de buurt te komen, worden steekproeven gehouden. De statistieken die hieruit voortkomen, zijn nooit helemaal gelijk aan de parameters, maar komen wel in de buurt.
Manieren om data te verzamelen:
observational: het navragen van gewoontes van mensen en mogelijke gevolgen hiervan. Uit deze methode is vaak moeilijk een conclusie te trekken, maar het is wel relatief goedkoop.
experimental: zelf de test uitvoeren zodat alle gebeurtenissen vastgelegd zijn. De steekproef wordt ingedeeld in meerdere groepen die elk aan verschillende invloeden worden blootgesteld
enquête: een ondervraging waarin naar de gewoontes en mening van mensen wordt gevraagd. Belangrijk hierbij is de response rate.
interview: persoonlijk vraaggesprek met de proefpersoon. Voordeel is uitsluiting van verkeerde interpretatie van de antwoorden, nadeel is de hoge kosten.
telefonisch interview: is vaak goedkoop maar een slechte response rate, aangezien mensen geïrriteerd worden van telefonische enquêtes.
self-administered survey: een vragenlijst die je via mail of een medium verstuurt
Eigenschappen van de vragenlijst:
Korte lijst, anders zullen mensen voortijdig afhaken.
Vragen kort, simpel en vooral duidelijk. Er mag geen onzekerheid bestaan over de betekenis van bepaalde definities (zoals werkloosheid of familie, is namelijk multi-interpretabel).
Eerst wat demografische vragen om mensen op hun gemak te stellen.
Ja-nee,- en meerkeuzevragen zijn populair, maar kunnen niet voldoende toereikend zijn.
Open vragen zijn erg tijdrovend.
Gebruik geen vragen die in een bepaalde richting sturen (“Vindt u ook niet dat…”).
Test de vragenlijst van tevoren op een kleine groep mensen om onduidelijkheden of fouten te kunnen verbeteren.
Bedenk hoe je dat antwoorden wilt verwerken.
Je kunt een steekproef puur willekeurig nemen. Hierin kunnen allerlei soorten mensen voorkomen. Het is echter ook mogelijk om mensen in strata in te delen, dit zijn categorieën zoals geslacht, leeftijd, beroep, inkomen.
Er bestaan sampling errors. Deze ontstaan door een verkeerde steekproef, zoals een groep die niet vertegenwoordigend is voor de populatie.
Non-sampling errors hebben te maken met de manier waarop het onderzoek is uitgevoerd. Deze bevat dan een fout, die de uitkomst beïnvloedt.
Een non-sampling error is erger dan een sampling error omdat het nemen van een grotere steekproef de grootte niet vermindert of de mogelijkheid van het voordoen van een bepaalde situatie.
De fouten worden gemaakt door fouten in het verkrijgen van de data van de steekproef of onjuiste observaties.
Hieronder volgt een aantal mogelijkheden waarbij fouten tot stand komen:
Fouten in de verkrijging van de data. Dit type fout komt tot stand bij het opnemen van foutieve antwoorden. Foutieve antwoorden kunnen het resultaat zijn van een verekeerde meting door ongekwalificeerde aparaten.
Nonresponse error. Nonrsponse error refereert naar onzuiverheid wanneer antwoorden niet verkregen zijn van leden van de steekproef. Wanneer dit gebeurt, zijn de observaties die gedaan zijn door de onderzoeken in staat om onzuivere resultaten te leveren.
Selectie onzuiverheid. Deze onzuiverheid doet zich voor op het moment dat het steekproef plan sommige leden van de populatie niet kan bereiken voor de steekproef. Dit beïnvloedt het resultaat.
Data verzamelen
De keuze voor een steekproef in plaats van het onderzoeken van een populatie zijn de kosten. Statistisch onderzoek maakt het mogelijk om conclsueis te trekken over een populatie die gebaseerd is op een steekproef. Vaak is dit een kleine steekproef in vergelijking met de grootte van de totale populatie.
Een voorbeeld is de televisie branche, waarbij menen willen weten welk deel van de kijkers tv kijkt. Ook kan er onderzocht worden hoeveel mensen naar een bepaald programma kijkt. De totale populatie is het aantal mensen dat een tv bezit. De steekproef bestaat uit de mensen die meedoen aan het onderzoek of mensen waarover data bekend is.
Door middel van een steekproef kan een verwachting worden gemaakt over de populatie. Het representeert een deel van het geheel.
Steekproeven
Ook in management komen steekrpoeven voor. Om zeker te zijn dt het productieproces goed functioneert, moet de operatie manager weten welk deel van de geoderen die geproduceerd is, defect is.
Zelf geselecteerde steekproeven zijn meestal niet zuiver, omdat een individueel persoon meer interesse heeft in de kwaliteit van de goederen dan de gehele populatie. Een voorbeeld doet zich voor bij een radiostation waar de mening wordt gevraagd van luisteraars betreffende een bepaald probleem. Alleen daadwerkelijk geïnteresseerde mensen zullen de tijd nemen het radiostation te bellen en hun mening uiten. Het deel van de populatie dat wordt gerepresenteerd geeft geen goed beeld van de mening van de gehele populatie, omdat de mensen die niet bellen andere interesses hebben.
Een willekeurige steekproef
Bij het trekken van conclusies over populaties wordt er geprobeerd om zo veel mogelijk extra informatie uit een steekproef te krijgen. Een procedure die hierbij gevolgd kan worden is strategische willekeurige steekproeven uitvoeren.
Een strategische willekeurige steekproef kan worden uitgevoerd door de populatie te scheiden in exclusieve sets en daarna een willeeurige steekproef te nemen van elke set.
Een cluster steekproef is een specifieke methode waarbij het moeilijk is om een complete lijst van de populatie op te stellen. Bij een custer steekproef wordt een simpele willekeurige steekproef uitgevoerd op een groep of een cluster van elementen.
De steekproefgrootte is afhankelijk van het steekproefplan dat gebruikt wordt en kan daarom variëren.
Hoofdstuk 6. Kansen en mogelijkheden
Een random experiment is een willekeurig experiment waar één of meerdere uitkomsten uit ontstaan.
Om met alle mogelijke uitkomsten van een random experiment rekening te houden, is het handig om deze vast te stellen zonder een mogelijkheid weg te laten.
Ook moeten de uitkomsten elkaar uitsluiten, zodat er niet 2 uitkomsten tegelijkertijd mogelijk zijn.
Alle uitkomsten worden de sample space genoemd. Hierin moeten alle mogelijkheden opgenomen zijn en sluiten de mogelijkheden elkaar uit (met één dobbelsteen kun je niet tegelijkertijd 2 en 5 gooien, dus deze mogelijkheden sluiten elkaar uit).
Als een steekproef is voorbereid worden kansen toegerekend aan de resultaten en mogelijke uitkomsten. Er bestaan twee regels met betrekking tot het opstellen van de kansen.
Bijlage 6.1 bevat deze vereisten voor het opstellen van kansen.
Er zijn verschillende manieren om uitkomsten te bepalen:
Classical approach: als er 6 uitkomsten zijn, is de kans 1/6 op een bepaalde uitkomst.
Relative frequency approach: als in het verleden 200 van de 1000 studenten een 10 heeft gehaald op een tentamen, is er dus 1/5 kans om een 10 te halen
Subjective approach: externe factoren en eigen inzicht meenemen in een overweging
Een event is een bepaalde gebeurtenis, zoals uit het bovenstaande voorbeeld een 10 voor een tentamen halen. De mogelijkheid van een event is afhankelijke van de relatieve frequentie.
Stel dat de relatieve frequenties als volgt zijn:
P is de kans dat een bepaald vak door een student wordt behaald.
P(A) = 0.20
P(B) = 0.30
P(C) = 0.25
P(D) = 0.15
P(F) = 0.10
De kansen van de gebeurtenis zijn dan als volgt:
P (behalen) = P(A) + P(B) + P(C) + P(D) + P(F) = 0.20 + 0.30 + 0.25 = 0.15 = 0.90
Het interpreteren van kansen
Het maakt niet uit welke methode wordt gebruikt om een kans toe te rekenen, bij het intepreteren gaat het om de relatieve frequentie benadering voor een oneindig aantal experimenten. Een voorbeeld: wanneer er een kans van 65% bestaat dat de prijs van een specifiek aandeel omhoog zal gaan de komende maand, kan de kans bepaald worden dat dit daadwerkelijk gebeurt. Dit kan bereikt worden door dezelfde soort aandelen te kopen met dezelfde economische karakteristieken en te onderzoeken of de prijs daadwerkelijk is gestegen na een maand en voor welk aandeel.
Kansencombinaties
Joint probability P(A en B): de kans dat twee gebeurtenissen samen optreden. Stel je wilt de joint probability uitrekenen dat je met twee dobbelstenen een totaal van 5 gooit. De mogelijkheden zijn (1+4;2+3,3+2,4+1) dus 4 mogelijkheden. Er zijn in totaal 36 combinaties te maken met twee dobbelstenen dus P=4/36
Marginal probability P(A en B)+(C en D): dit is de kans van bepaalde gebeurtenissen bij elkaar opgeteld.
Voorbeeld:
| Wiskunde A | Wiskunde B | Totaal |
Voldoende (1) | 122 | 134 | 256 |
Onvoldoende (2) | 108 | 44 | 152 |
Totaal | 230 | 178 | 408 |
Marginal probabilities van wiskunde A is 230/408.
*De kans is 230/408 dat een leerling wiskunde A heeft gevolgd (A,1+A,2=122+108).
*De kans is 152/408 dat een leerling onvoldoende heeft gescoord (A,2+B,2=108+44).
Conditional probability P(B|A): hiermee bereken je de kans dat iets gebeurt, als een andere gebeurtenis ook plaatsvindt.
De kans op gebeurtenis A gegeven gebeurtenis B:
De kans op gebeurtenis B gegeven gebeurtenis A:
*Uitgaande van bovenstaande tabel, kun je bijvoorbeeld P(1|A) uitrekenen. Wat is de kans dat men een voldoende haalt als men Wiskunde A heeft gevolgd?
Er hebben 230 mensen Wiskunde A gevolgd, waarvan er 122 een voldoende hebben gehaald, dus: P(1|A)=122/230=0.53
Gebeurtenissen zijn onafhankelijk als P(A|B)=P(A)
P(B|A)=P(B)
Stel, men vergelijkt het weer in Paramaribo met de uitstoot van broeikasgassen in Amsterdam. Als het weer in Paramaribo niet beïnvloed lijkt door de uitstoot in Amsterdam, blijft de kans op zonnig weer hetzelfde als altijd. De kansen zijn dan dus onafhankelijk van elkaar.
Andersom is het waarschijnlijk ook zo, dat er niet meer uitstoot is als de zon een dag wat minder schijnt op Paramaribo.
Bij onafhankelijke kansen wordt de kans van de een gebeurtenis dus niet beïnvloedt door het uitkomen van de andere gebeurtenis.
De vereniging P(A of B) van bepaalde kansen: de kans dat of één van de twee gebeurtenissen optreedt, of allebei.
* Weer uitgaande van de voorgaande tabel, kun je berekenen de vereniging van de kansen dat je een voldoende of een onvoldoende haalt. Deze kans is 408/408.
Kansregels
Er bestaan ook andere methoden om kansen te bepalen.
Complementaire regel
De complement van A is een gebeurtenis die zich voordoet wanneer A zich niet voordoet. De complementregel maakt een afleiding van he feit dat de kans op een gebeurtenis en de kans van het complement. Samen moeten deze waardes van de kansen gelijk aan 1 zijn.
Bijlage 6.2 bevat de complementaire regel.
Vermenigvuldigingsregel
De vermenigvuldigingsregel wordt gebruikt om de gezamenlijke kans van twee gebeurtenissen te berekenen.
Bijlage 6.3 bevat een afleiding van de formule voor deze methode.
Hoofdstuk 7. Discrete variabelen en investeringen
Wanneer je een experiment uitvoert, ben je benieuwd naar de uitkomst X. Stel dat je 100 keer een munt flipt, ben je benieuwd naar bijvoorbeeld het aantal keer kop (X keer kop).
Deze X wordt de random variable genoemd.
Er zijn twee types van random variables, namelijk discrete en continue.
Een discrete random variable is een variabele die telbare waardes aan kan nemen.
Een continue random variable is niet te tellen. Stel dat de X een tijdwaarde voorstelt.
Deze tijd loopt continu door, hij verspringt niet van 30 minuten naar 30.1 minuten maar deze loopt constant.
Een probability distribution is een tabel, formule of grafiek die de waardes van X omschrijft, en de kans die bij deze waardes hoort.
Bijlage 7.1 bevat de verdeling voor een discrete random variabele.
Bijlage 7.2 bevat de formule voor het populatie gemiddelde.
Bijlage 7.3 bevat de formule voor de populatie variantie.
Bijlage 7.4 bevat de formule voor de korte variantie formule van de populatie.
Bijlage 7.5 bevat de formule voor de standaard deviatie van de populatie.
Voorbeeld
Een salespersoon is van plan drie mensen te bellen. Uit voorgaande ervaring kan geconcludeerd worden dat er 20% kans is dat de sale niet behaald wordt bij een telefoontje.
Bij het opstellen van de kansverdelingen van het aantal verkopen dat behaald zal worden, wordt gebruik gemaakt van een stamboom.
Bijlage 7.6 bevat de kansboom met de verdelingen, waarbij X het aantal sales voorstellen.
Het beschrijven van maandelijkse winst
De maandelijkse winst bij een computerwinkel kan 25.000 euro zijn en de standaardafwijking kan 4000 euro zijn. De winst wordt berekend door het vermenigvuldigen van de winst met 30% en daar de vaste kosten van 6000 euro af te halen.
Oplossing
De relatie tussen de winst en de verkopen kan als volgt worden omschreven:
Winst = 0.30(sales) – 6000
De verwachte of gemiddelde winst is:
E(winst) = E[0.30(sales) – 6000]
Bij toepassinng van de tweede wet van de verwachte waarde:
E(winst) = E[0.30(sales) – 6000]
Bij het toepassen van de derde wet:
E(winst) = 0.30E(sales) – 6000 = 0.30x(25.000) – 6000 = 1500
De gemiddelde maandelijkse winst is 1500 euro.
De variantie is;
V(winst) = V[0.30(sales) – 6000]
De tweede wet van de variantie geeft aan dat:
V(winst) = V[0.30(sales)]
De derde wet geeft aan dat:
V(winst) = (0.30)2V(sales) = 0.09(4000)2 = 1440.000
De standaard deviatie van de maandelijkse winst is:
Sd= 1200
X is de naam van de random variable, en x is de waarde van de random variable.
De formules uit hoofdstuk 4 van deze samenvatting zijn ook anders te schrijven, namelijk als expected value.
Bijlage 7.7 bevat de wetten voor de verwachte waarde.
Bijlage 7.8 bevat de wetten voor de variantie.
Kansen met 1 variabele worden univariate distributions genoemd.
Kansen met 2 variabelen worden bivariate distributions genoemd.
De verenigde kans dat 2 variabelen waarden x en y zullen aannemen, wordt geschreven als P(x,y)
Ook bivariate distributions worden vaak beschreven door middel van het gemiddelde, variantie en deviatie (zie het bovenstaande voorbeeld).
Als je twee probability distributions hebt van variabele X en Y, kun je deze samenvoegen tot 1 probability distribution.
Covariantie
Bijlage 7.9 bevat de formule van de covariantie.
Bijlage 7.10 bevat de kortere versie voor de formule van de covariantie.
Bijlage 7.11 bevat de formule van de correlatie coëfficiënt.
Investeringen
Bij investeringen wordt de winst berekend door het deel van het totaal geïnvesteerde geld, te vermenigvuldigen met de procentuele winst. Hieruit ontstaat de rate of return.
Stel je hebt 2 investeren gedaan, met een totaal voor €10.000,-.
Investering 1: €6.000,- met een winst van 25% 7.500
Investering 2: €4.000,- met een winst van -5% 3.800
Investering 1 is 0.6 van het totale bedrag, 0.6x25%=0.15
Investering 2 is 0.4 van het totale bedrag, 0.4x-5%=-0.02
0.15+-.02=0.13
Bijlage 7.12 bevat een overzicht van het gemiddelde en de variantie van een portfolio van twee aandelen.
Bijlage 7.13 bevat een overzicht met het gemiddelde en de variantie van een portfolio met meer dan twee aandelen.
Binomiale experimenten eigenschappen:
vast aantal testen n
hebben maar twee uitkomsten: goed of slecht, waar of niet waar, kop en munt, etc.
De kans op succes is p, de kans op fout is 1-p.
De testen zijn onafhankelijk, de uitkomsten beïnvloeden elkaar niet
Als punt 2,3 en 4 voldoen, spreken we van een Bernoulli process. Punt 1 maakt hier een binomiaal experiment van.
De binomial random variable is het aantal successen die in n experimenten voorkomt.
x= aantal successen
n-x= aantal mislukkingen
De Poisson distribution is hetzelfde als wat hiervoor is uitgelegd als “succes”. Het enige verschil is dat de Poisson random variable binnen een interval valt. Dus bijvoorbeeld het aantal auto’s dat na de start binnen een uur over de finish rijdt.
De kans dat een Poisson random variable een waarde van x aanneemt is
voor x = 0,1,2,…
Bijlage 7.14 bevat een overzicht van een kansboom voor een binomiaal experiment.
Bijlage 7.15 bevat de formule voor een binomiale verdeling.
Hoofdstuk 8. Continue variabelen
Bij discrete variabelen heb je altijd de uitkomsten op een rijtje kunnen zetten. Bij continue variabelen is dit niet mogelijk. De x kan alle waardes aannemen en daarom is de kans (probability) hierop eigenlijk nul. Hierdoor kan je alleen bepaalde waardes bij elkaar nemen en berekenen. Dit doen we met intervallen. De som van de kansen om binnen een willekeurig interval te vallen, is 1.
De intervallen kun je in een histogram zetten (staafdiagram). Hier kun je ook een grafiek van tekenen, dat lijn loopt dan in de zelfde richting als de staven.
Deze grafiek heet dan een density function.
De vereisten voor zo een functie staan in bijlage 8.1.
Om de kans van een interval uit te rekenen, bereken je de oppervlakte van de staaf (of het gebied onder de curve).
Als je een interval hebt gekozen en je wilt een bepaald gebied binnen dit interval berekenen, dan vermenigvuldig je het verschil tussen de grenzen van het gebied.
Om de kans te berekenen dat een normal random variable binnen elk interval valt, moet de oppervlakte onder de curve duidelijk worden.
De normale dichtheidsverdelingsfuncte ziet er als volgt uit: zie bijlage 8.3.
Om de kans in een interval te berkenen, moet de data onder de curve bekend zijn.
Bijlage 8.4 bevat een overzicht van dichtheidsfuncties.
*Normaal gesproken ligt de grafiek (klokvorm) rond het gemiddelde. Het gemiddelde ligt dan in het midden en de grafiek ligt hier symmetrisch omheen. Met de Z-waarde wordt het gemiddelde nul. Dit rekent gemakkelijker. De kans dat data rechts van het gemiddelde, net als links van het gemiddelde valt, is 0.5. Samen is dit 1.
Er bestaat een tabel voor de gevonden Z-waardes. Hierin kan je opzoeken bij bijvoorbeeld Z-waarde 1, hoeveel data er onder de grafiek ligt. Als je weet hoeveel data dat is, kun je een kansberekening maken.
Er werd net verteld dat alle data links en rechts van het gemiddelde in de grafiek, samen 1 is. Stel de kans is 0.025 dat een willekeurige datum (ev, van data) op een bepaalde Z-waarde valt, hoe reken je dit dan uit?
Aangezien de kans dat willekeurige data onder de klokvorm valt, 1 is (100%). De kans per helft, links en rechts van het gemiddelde, is dan 0.5. Als de kans 0.025 is dat een datum onder de lijn van de grafiek valt, dan moet je de Z-waarde opzoeken in de tabel. Je zoekt dan naar waarde (0.5 – 0.025=0.4750). Als je naar de tabel op blz. 243 van Statistics kijkt, zie je bij 1.96 de waarde .4750 staan. Hier hoort dus Z-waarde 1.96 bij.
De percentielen die eerder uitgelegd zijn, kunnen ook bij Z-waardes gebruikt worden.
Als je bijvoorbeeld Z-waarde .05 hebt gevonden. 0.5 – 0.05 = 0.4500. Als je deze waarde in de tabel opzoekt, vind je 1.645. Dit betekent dat op het 95e percentiel (1 – 0.05) nog zo’n 5% boven de 1.645 zal vallen.
De normale distributie is de meest belangrijke kansverdeling omdat deze een cruciale rol heeft bij het concluderen.
Bijlage 8.5 bevat de formule voor de normale dichtheid.
Bijlage 8.6 bevat een figuur van de normale verdeling.
Bijlage 8.7 bevat een afbeelding voor het vinden van de z-waarde in een verdeling.
Student-t verdelingen
Deze verdeling gebruikt de letter t om een willekeurige variabele te presenteren. Daarom wordt het de Student t verdeling genoemd.
Voor elke waarde van v is er een andere Student t verdeling.
Om de waarde te bepalen van een normale wilekeurige variabele wordt een tabel gebruikt
Bijlage 8.8 bevat de formuletabel voor de Student t verdeling.
Bijlage 8.9 bevat een afbeelding van een Student t verdeling.
Bijlage 8.10 bevaat een afbeelding voor de formule van de dichtheidsfunctie voor F.
Voorraad management
Elke organisatie onderhoud een voorraad. Deze wordt gedefiniëerd als de voorraad goederen. Dit geldt bijvoorbeeld voor supermarkten. Deze houden voorraden van elk product dat zij verkopen en aanbieden.
De voorraden dalen door de verkoop van goederen en moeten daardoor weer aangevuld worden. Er bestaan verschillende systemen waarmee deze aanvulling plaats kan vinden.
Daarnaast is een belangrijkpunt het moment waarop de aanvulling plaatsvindt. Voor een bepaalde hoeveelheid voorrad in de supermarkt wordt dan afgesproken dat dat het punt is waarop nieuwe voorraden worden besteld.
Wanneer zo een bestellingspunt te laag ligt, dan komen de nieuwe voorraden te langzaam en zal de supermarkt een tijdje zonder voorraden zitten. Hierdoor worden winsten misgelopen.
Om deze situatie te voorkomen kunnen managers een veiligheidsvoorraad aanmaken, waarbije en extra heoveelheid voorraad wordt gehouden om het aantal keren te voorkomen dat er een voorraad tekort ontstaat.
Echter is het belangrijk om het juiste niveau van bestelling te hanteren om tekorten zo vee mogelijk te voorkomen. Daarom is het belangrijk dat het bestellingspunt van te voren bepaald wordt op een betrouwbare manier. De voorraad moet met behulp van een systeem worden bijgehouden en dit systeem kan automatisch aangeven wanneer de voorraad moet worden aangevuld en op deze manier worden tekorten en andere problemen met betrekking tot de voorraad voorkomen.
Wanneer de totale voorraad bijvoorbeeld 200 bedraagt en het bestellingspunt ligt op 150. Dan zal de voorraad moeten worden aangevuld bij een niveau van 150.
Hoofdstuk 9. Verdelingen
Een fundamenteel element bij statistische conclusies is de steekproefverdeling. Dit is het proces van het converteren van data in informatie.
Omdat je geen verdeling kunt maken van de gehele populatie, wordt dit gedaan van een steekproef. In het Engels heet dit een sampling distribution.
De populatie die ontstaat door het gooien van een dobbelsteen voor een oneindig aantal keer, geeft de willekeurige variabele X weer voor elke worp.
De kansverdeling van een willekeurige variabele X ziet er als volgt uit:
X | 1 | 2 | 3 | 4 | 5 | 6 |
P(x) | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
De populatie is oneindig groot, omdat de dobbelsteen een oneindig aantal keer gegooid kan worden.
Het populatiegemiddelde wordt berekend als in bijlage 9.1.
De populatie variantie staat in bijlage 9.2.
Deze formule is alleen te gebruiken voor oneindige populaties. Als de populatie kleiner wordt (dus eindig), verandert de formule naar
Voor alle populaties kan de sampling distribution worden gebruikt. De mean is gelijk aan die van de populatie.
Je kunt de uitkomst natuurlijk ook empirisch vaststellen door bijvoorbeeld dobbelsteen 500 keer te gooien en de uitslag bij te houden. Dit is erg tijdrovend dus niet handig.
Central limit theorem: is:
Normaal verdeeld als X normaal verdeeld is
Vrijwel normaal verdeeld als X nonnormal is maar n heel groot
De juistheid van de benadering bij deze theorie is afhankelijk van de kans van de populatie en de steekproefgrootte. Als de populatie normaal is, dan is de gemiddelde x normaal verdeeld voor alle waarden van n. Als de populatie abnormaal is, dan is x gemiddeld normaal verdeeld voor grotetere waarden van n.
Normaal gesproken is een steekproefgrootte van 30 voldoende om aan te tonen dat er een normale vedeling is en een beandering te geven van de steekproef verdeling van x gemiddeld.
Echter, als de populatie extreem abnormaal is, dan zal de steekproefverdeling ook abnormaal zijn voor gemiddeld grote waarden van n.
Het creëren van een steekrpoefverdeling
Er kan een empirische verdeling worden opgesteld door wee dobbelstenen herhaald te gooien. Daarbij wordt het steekproefgemiddelde voor elke steekproef berekend. Daarbij wordt geteld hoeveel keer de waarde van x gemiddeld voorkomt en worden de relatieve frequenties berekend om te bepalen wat de theoretische mogelijkheden zijn.
Benadering van de steekproef verdeling van een steekproef
Door het gebruiken van de wetten van waarde en variantie kunnen het gemidelde, de variantie en de standaardafwijking worden bepaald voor P.
Bijlage 9.3 bevat een overzicht met formules voor de bepaling van deze waardes.
9.3 Steekproefverdeling van het verschil tussen twee gemiddeldes
Een andere seekproefverdeling die bestaat is die van het verschil tussen twee steekproefgemiddeldes. Het gaat hierbij om onafhankelijke en willekeurige steekproeven die worden gedaan uit een normale populatie.
De steekproeven zijn onafhankelijk als de selectie van de leden van een steekproef onafhankelijk is van de selectie van de leden van de tweede steekproef.
Bijlage 9.4 bevat een afbeelding van de formule.
Bijlage 9.5 bevat een afbeelding van zo een steekproefverdeling voor het verschil van twee gemiddeldes.
9.4 Van hier naar conclusie
De primaire functie van een steekproefverdeling is een statistische conclusie.
Bijlage 9.6 geeft een symbolische presentatie weer van de kansverdelingen. De kennis van een populatie en de paramters worden gebruikt om een kansverdeling te maken zonder individuele leden van de populatie. De richting van de pijl geeft de richting van de stroom van informatie weer.
Bij het opstellen van een steekproefverdeling word tkennis van de paramters gebruikt en andere informatie over de verdeling. Dit maakt het mogelijk om een uitspraken te doen over de kans van een steekproef.
Wanneer het bijvoorbeeld bekend is wat het populatiegemiddelde is en de standaard deviatie, kan verondersteld worden dat de popultie niet extreem abnormaal verdeeld is. Di tmaakt het mogelijk om een uitspraak te doen over de kans van de steekproefverdeling.
Bijlage 9.7 bevat een afbeelding van deze omschrijving.
Bij het toepassen van kansverdelingen en steekproef verdelingen is het belangrijk om te weten wat de waarde is van de relevante parameters. Deze toestand van informatie is echter zeldzaam.
In de werkelijkheid zijn parameters bijna altijd onbekend, omdat ze een beschrijvende meting geven over extreem grote populaties. Dit probleem wordt in de statistiek herkend door het omdraaien van de richting van kennis bij het maken van conclusies.
Hoofdstuk 10. Schattingen
Er bestaan twee mogelijke manieren om conclusies te trekken over een populatie: verwachting en het testen van hypotheses.
10.1 Concepten van verwachting
Een point estimator schat de waarde van een parameter van de populatie door één punt te gebruiken.
Een interval estimator schat de waarde van een parameter van de populatie door een interval te gebruiken.
Een unbiased estimator moet de waarde van een parameter van de populatie exact kunnen schatten. Dit kan vaak alleen gebeuren als de geteste groep heel groot is. Dan komt het gemiddelde van de populatie in de buurt van het gemiddelde van de sample. Hoe kleiner het verschil tussen de schatting en werkelijkheid, hoe consistenter de unbiased estimator is.
Als er twee unbiased estimators zijn, dan is degene die de kleinste variantie heeft relatively efficient.
10.2 schatting van het populatiegemiddelde wanneer de standaardafwijking van de populatie onbekend is
In dit gedeelte wordt beschreven hoe een interval schatter wordt gemaakt voor een steekproef verdeling.
Wanneer het gemiddelde en de standaardafwijking bekend zijn en het populatiegemiddelde onbekend is, is het doel om deze waarde te gaan bepalen.
De schattingsprocedure vereist het trekken van een steekproef van grootte ˆni en het berekenen van het steekproefgemiddelde.
Als X normaal verdeeld is en n is voldoende groot, dan is de variabele als volgt:
Zie bijlage 10.1.
Om het zekerheidsinterval te bepalen komen er enkele formules aan te pas.
Bijlage 10.2 bevat een overzicht van de formules voor de bepaling van het zekerheidsinterval.
Er bestaat een direct verband tussen de breedte van het interval en de confidence leven. Om zekerder te zijn van de schatting, maken we het interval breder. Een grotere steekproefmaat zorgt voor meer informatie.
Grootte van het interval
De schatting van het interval is ontwikkeld om data om te zetten in informatie. Een groter interval geeft minder informatie weer. Als er bijvoorbeeld en 95% zekerheidsinterval wordt gebruikt voor het feit dat het gemiddelde startsalaris voor een accountant tusen de 15.000 en de 100.000 euro ligt, dan is dit interval zo groot dat weinig informatie kan worden afgeleid uit de data.
Wanneer een interval van 52.000 tot 55.000 euro wordt gebruikt, kan echter geconcludeerd worden dat dit interval veel kleiner is en daardoor beter informatie verschaft aan studenten over het gemiddelde startsalaris.
Selecteren van de grootte van de steekproef
Als het interval te breed gekozen is, dan geeft het te weinig informatie weer. De breedte van het itnerval kan gecontroleerd worden door het bepaeln van de steekproefgrootte die nodig is om kleine intervallen te produceren.
Error of estimation
De error of estimation is het verschil tussen x gemiddeld en mu.
Steekproefgrootte
De volgende formule wordt gebruikt om de steekproefgrootte te bepalen die nodig is om een schatting t emaken van het gemiddelde:
Zie bijlage 10.3.
N moet een integere getal zijn, omdat we wllen weten wat de grenzen zijn voor de error of estimation.
Hoofdstuk 11. Significantie
11.1 Concepten van hypothese testing
Om betrouwbare conclusies te trekken over een populatie wordt vaak gebruik gemaakt van hypothesis testing. Het doel hiervan is informatie te verschaffen om te kunnen bewijzen dat gemaakte schattingen over een parameter van de populatie, ook betrouwbaar is.
Kritische concepten testen het volgende in een hyppothese:
1.Er bestaan twee hypothesen. De ene heet de nulhypothese en de andere de alternatieve hypothese.
2. De testprocedure begint met de veronderstelling dat de nulhypothese waar is.
3. Het doel van het proces is om te bepalen of er genoeg bewijs is om te concldueren dat de alternatieve hypothese waar is.
4. Er zijn twee mogelijke conclusies:
Conluderen dat er genoeg bewijs is om de alternatieve hypothese te ondersteunen.
Concluderen dat er niet genoeg bewijs is om de alternatieve hypothese te ondersteunen.
5. Twee mogelijke fouten kunnen worden gemaakt bij elke toets. Een type I fout kan zich voordoen wanener de nulhypothese waar is en een type II fout doet zich voor wanener de nulhypothese niet wordt verworpen.
Twee mogelijke fouten:
Type 1: Als een kloppende null hypothesis wordt verworpen. De kans op een type I fout wordt omschreven als alpha.
Type 2: Als een foute null hypothesis niet wordt verworpen. De kans op een type twee fout wordt omschreven als bèta.
Wanneer men moet beslissen welke van de twee hypotheses aangenomen moet worden, bestaat er de:
rejection region en de
p-value approach.
Als de waarde van teststatistieken in de rejection region valt, wordt er besloten om de null hypothesis te verwerpen voor de alternatieve hypothese.
Om de rejection region te kunnen berekenen, heb je een waarde van alphanodig. Aplha is het significantie level van de test. Stel dat alpha 5% is, dan wil dit zeggen dat er een minimale betrouwbaarheid van 95% vereist is.
P-waarde
De p-waarde van een test is de kans op het observeren van een teststatistiek die op zijn minst zo extreem is als degene die berekend is als de null hypothesis waar is.
Er bestaan verschillende nadelen aan het afwijzingsregime. De rejection region methode geeft een ja of nee antwoord op de vraag of er voldeonde bewijs is om te concldueren dat de alternatieve hypothese waar is.
Het resultaat van de toets wordt automatisch omgezet in een handeling: de nullhypothese wordt verworpen of de nulhypothese wordt niet verworpen.
De p-waarde is de kans dat een statistische toets wordt geobserveerd die ten minste net zo extreem is als degene die aangeeft dat de nulhypothese waar is.
Stel dat het populatie gemiddelde 170 is en men als steekproefgemiddelde 178 heeft, hoe groot is dan de kans dat men 178 als gemiddelde meet?
Als de p-value kleiner is dan dan mag de null hypothesis verworpen worden. Anders niet
Interpreteren van de p-waarde
Om de p-waarde juist te interpreteren moet rekening worden gehouden met de techniek waarop de steekproefverdeling is gebaseerd.
De steekproefverdeling makt het mgoelijk om een statement te maken over de kans van een steekproef. Daarnast wordt kennis verondersteld over de populatie parameter.
De p-waarde van een toets geeft waardevolle informatie omdat het een meting is van de hoeveelheid statistische bewijs die de nulhypothese ondersteunt.
Bijlage 11.1 bevat een tabel met de berekende p-waardes voor bepaalde steekproefgemiddeldes.
Bijlage 11.2 bevat een afbeelding van verschillende p-waardes in een verdeling voor de in de tabel omschreven steekproefgemiddeldes.
Het beschrijven van de p-waarde
Als de p-waarde kleiner dan 0.01 is, dan is er genoeg bewijs om te concluderen dat de alternatieve hypothese waar is. Er is in deze situatie sprake van hoge significantie.
Als de p-waarde tussen 0.01 n 0.05 ligt, dan is er sterk bewijs om te concluderen dat de alternatieve hypothese waar is. Dit resultaat is significant.
Als de p-waarde tussen 0.05 en 0.10 ligt, dan is er zwak bewijs om te concluderen dat de alternatieve hypothese waar is. Wanneer de p-waarde groter is dan 5% wordt het resultaat niet statistisch significant genoemd.
Als de p-waarde groter is dan 0.10, dan is er weinig tot geen bewijs om te concluderen dat de alternatieve hypothese waar is.
Bijlage 11.3 bevat een tabel die een overzich weergeeft van de p-waardes en de bijbehorende conclusies.
One-tailtest
Een one-tailtest houdt in dat de rejection region zich maar in één van de staarten van de normale verdeling bevindt. Het is afhankelijk van het soort onderzoek of de linker,- óf rechterstaart belangrijk is.
Wil men weten of een samplegemiddelde groter is dan een populatiegemiddelde, dan is de rechterstaart belangrijker (aangezien hier de waardes groter dan het gemiddelde liggen).
Twee nadelen van een one-tailtest:
Als je een one-tailtest gedaan hebt, kan het zo zijn dat de conclusie alsnog geen antwoorden levert.
De intervalestimator kan geen p-value leveren, welke toch beter is om conclusies te kunnen trekken uit een parameter.
Grotere steekproef
Als je de steekproef vergroot, kun je de kans op een type 2 error verkleinen. Door deze kans te verkleinen, zal de fout minder vaak voorkomen. Hierdoor kun je op de lange termijn betere beslissingen maken.
Verschillende doelen van statistische methodes:
Het omschrijven van een populatie
Het vergelijken van twee populaties
Het vergelijken van twee of meerdere populaties
Het analyseren van de relatie tussen twee variabelen
Het analyseren van de relatie tussen twee of meerdere variabelen
Afhankelijke variabele: het voorspellen van een variabelen
Onafhankelijke variabele: andere variabelen
Operating characteristic curve
Om de kans op een type II fout te berekenen, moet het significantieniveau worden bepaald, de steekproefgrootte en de altneratieve waarde van het populatiegemiddelde. Een manier om dit te controleren is de operating characteristic curve (OC). Deze curve plot de waardes van beta en de waardes van mu.
Bijlage 11.4 bevat een afbeelding van deze curve.
Hoofdstuk 12. Conclusies trekken
12.1 Conclusies over een populatie
In dit hoofdstuk worden de t-toets gebruikt.
Bijlage 12.1 bevat de formule voor de t-toets als de standaard deviatie onbekend is.
Dit heeft een student t distributie met n-1 degrees of freedom, wat de standaarddeviatie van de steekproef voorstelt. De test heeft alleen een student t distributie als de steekproef genomen is van een normale populatie.
Bijlage 12.2 bevat de formule voor het betrouwbaarheidsinterval wanneer de standaard deviatie onbekend is.
Overeenkomsten tussen een student t distribution en een standard normal distribution:
Symmetrisch rond de nul
Een berg-achtige vorm in plaats van een klokvorm
Wijd uitgespreid
Controleren van de vereisten
Het is bewezen dat de uitkomst van een t-toets grof is, wat inhoudt dat een abnormale populatie een geldige waarde voor de t-toets geeft en het betrouwbaarheidsinterval ook geldig is voor de populatie die niet extreem abnormaal is.
Aan de hand van een histogram kan aangetoond worden dat er geen bubbel vorm is.
Bijlage 12.3 bevat een histogram.
De bovenstaande histogram geeft aan dat de variabelen niet extreem abnormaal zijn.
Testen van de populatie variantie
Bijlage 12.4 bevat de formule voor de statistische toets voor de variantie.
Bijlage 12.5 bevat de formule voor het betrouwbaarheidsinterval voor de variantie.
12.3 Conclusies over de parameter
Als de data nominaal is, moet het aantal keer geteld worden dat een gebeurtenis zich voordoet in een populatie. De parameter bij het beschrijven van de populatie met behulp van nominale data is de populatie proportie p.
De parameter wordt gebruikt om kansen te berekenen op basis van een binomiaal experiment. Er bestaan twee mogelijke uitkomsten per experment. De uitkomst waar we echter aandacht aan besteden is ‘succes’. Al de andere uitkomsten worden aangemerkt als een ‘mislukking’.
Testen van een proportie
Bijlage 12.6 bevat de formule voor de verdeling in een steekproef van een proportie.
Bijlage 12.7 bevat de formule voor het betrouwbaarheidsinterval van een proportie.
Ontbrekende data
Soms kan data incompleet zijn. Dit gebeurt wanneer de onderzoeker gefaald heeft om op de juiste manier observaties uit te voeren of wanneer er data verloren is gegaan.
Selecteren van steekproefgrootte
De steekproefgrootte kan gebruikt worden om een gemiddelde te schatten. De steekproefgrootte is afhankelijk van het betrouwbaarheidsinterval en de grenzen voor de error of estimation die de onderzoeker bereid is te ondervinden.
Bijlage 12.8 bevat de formule voor de steekproefgrootte voor de schatting van een proportie.
Wilson schatters
Bij het toepassen van het zekerheidsinterval van een proportie wanneer succes een zeldzame gebeurtenis is, is het mogelijk om geen succes te ondervinden als de steekproefgrootte klein is.
Edwin Wilson hefet een formule opgesteld voor het betrowbaarheidsinterval in deze situatie.
Zie bijlage 12.9 voor de formule van Edwin Wlson, de Wilson estimate.
Hoofdstuk 13. Het vergelijken van populaties
Dit hoofdstuk behandelt de verschillende technieken om een twee populaties te vergelijken. Er wordt gebruik gemaakt van interval variabelen. De parameter waar het in deze situatie om gaat, is het verschil tussen de gemiddelden.
13.1 Onafhankelijke steekproeven
Om het verschil tussen de gemiddeldes van de populaties te bepalen worden er steekproeven van twee verschillende populaties genomen. De steekproeven zijn onafhankelijk van elkaar en hebben geen correlatie. De beste schatter van het verschil tussen de populatiegemiddelden is het verschil tussen het steekproefgemiddelde van de twee populaties.
Zie bijlage 13.1 voor de steekproefverdeling.
Daarnaast is het belangrijk om de standaardafwijking te bepalen van de steekproefverdeling. Wanneer de populatie varianties gelijk zijn, kan volgens de formule in bijlage 13.2 de variantieschatter worden bepaald. Het betreft het gewogen gemiddelde van de twee steekproefvarianties.
Het zekerheidsinterval met de Student-t-verdeling wordt afgeleid volgens de formule in bijlage 13.3.
Op de volgende wijze kan worden verklaard waarom de populatievarianties gelijk aan elkaar zijn: omdat de varianties van populatie 1 en populatie 2 onbekend zijn, kan niet met zekerheid worden gezegd of z gelijk aan elkaar zijn. Echte ris het wel mgoelijk om een statistische test uit te voeren om te bepalen of er bewijs is om te bevestigen dat de varianties van de populaties verschillen. Dit wordt gedaan met behulp van de F-toets.
Zie voor de uitwerking van de F-toets bijlage 13.4.
Beslissingsregel
Er bestaat nooit genoeg bewijs om aan te tonen dat de nulhypothese waar is. Er kan alleen worden bepaald of er genoeg bewijs is om te bevestigen dat de populatievarianties verschillen. Het zekerheidsinterval kan gebruikt worden om te bevestigen of de populatievarianties verschillen. In dat geval wordt er een onevenwichtige variantietoets uitgevoerd, waarbij gebruik gemaakt wordt van een schatter voor het zekerheidsinterval.
Het begrijpen van statistische termen
De waarde van de statistische test is het verschil tussen de gewogen gemiddeldes van de twee populaties en de hypothese waarde van de parameter voor het gemiddelde in termen van de standaardafwijking.
De wijze waarop de standaardafwijking wordt bepaald is afhankelijk van het feit of de populatievarianties gelijk aan elkaar zijn. Wanneer deze gelijk an elkaar zijn wordt de pooled variantieschatter gebruikt.
Het principe dat hierbij van toepassing is kan als volgt worden toegelicht: het is voordelig, waar mogelijk, om data van een steekproef samen te voegen om een schatting te maken van de standaardafwijking. Hierbij wordt gebruik gemakat van populaties met een gemeenschappelijke variantie. Het combineren van de verschillende steekproeven verhoogt de correctheid van de schatting.
In de situatie dat de populatievarianties ongelijk zijn, kan geen samenvoeging plaats vinden van de data. In dit geval moeten de pooled variantieschatter en de variantie afzonderlijk worden berekend voor elke populatie.
De volgende factoren identificeren de gelijke varianties voor de t-Toets en de schatting van het verschil tussen de gemiddeldes:
Probleemstelling: vergelijk de twee populaties
Datasoort: interval
Beschrijvende waarnemingen: centrale locatie
Experimenterende ontwerpen: onafhankelijke steekproeven
Populatievarianties: zijn gelijk
De volgende factoren identificeren een ongelijke variantie voor de t-Toets en de scahtter van het verschil tussen de gemiddeldes:
Probleemstelling: vergelijk de twee populaties
Datasoort: interval
Beschrijvende waarnemingen: centrale locatie
Experimenterende ontwerpen: onafhankelijke steekproeven
Populatievarianties: ongelijk
13.2 Observeren van experimentele data
Er bestaat een verschil tussen geobserveerde data en experimentele data. Het verschil ontstaat door de manier waarop de data wordt verwerkt.
Experimentele data is meestal duurder om te verkrijgen vanwege de planning die vereist is om het experiment op te zetten of uit te voeren. Observerende data vereist meestal minder werk om verzameld te worden.
13.3 Het verschil tussen twee gemiddelden
het verschil tussen de populatiegemiddelden, waarbij de data verkregen wordt van onafhankelijke steekproeven staat centraal. Ook kan data bij elkaar verzameld worden door gematchte paren van experimenten.
Het doel is om een vergelijking te maken van de interval data van twee verschillende populaties. De parameter is eht verschil tussen de gemiddelden van de populaties. De alternatieve hypothese is in een situatie waarbij je een hoger gemiddelde wilt bepalen, dat het eerste gemiddelde hoger is dan het tweede gemiddelde. De F-Toets voor variantie is wordt daarna uitgevoerd en het resultaat geeft aan dat er niet genoeg of wel genoeg bewjis is om te bevestigen of dat populatievarianties verschillen.
13.4 De ratio van twee varianties
In dit gedeelte wordt de variantie gebruikt om het risico te meten dat in verband staat met een portfolio van investeringen.
Parameter
In deze situatie worden twee populatievarianties vergeleken door de ratio te bepalen. De parameter staat in bijlage 13.5.
De steekproefvariantie is een consistente schatting van de populatievariantie.
De schatting van de parameter is de ratio van de twee steekproefvarianties die een F-verdeling aan tonen die onafhankelijk ontstaan is uit twee normale populaties.
Bij een F-verdeling is het aantal vrijheidsgraden gelijk aan het aantal vrijheidsgraden bij een chi-verdeling.
Testen en schatten van de ratio van twee varianties
De nulhypothese geeft altijd aan dat twee varianties gelijk aan elkaar zijn. Het resultaat hiervan is dat de ratio gelijk zal zijn aan 1. Daarom wordt de hypothese op een vaste manier uitgedrukt. Zie bijlage 13.6.
De alternatieve hypothese kan aangeven dat de ratio niet gelijk is aan 1, groter dan 1 of kleiner dan 1. De statistische weergave hiervan staat in bijlage 13.7.
Het zekerheidsinterval kan met behulp van algebra opgesteld worden. Dit geeft een zekerheidsinterval voor de schatter van de ratio van twee populatievarianties. Het zekerheidsinterval staat in bijlage 13.8.
13.5 Het verschil tussen twee populatie verdelingen
In dit gedeelte wordt een conclusie getrokken over het verschil tussen twee populaties waarvan de data nominaal is.
Parameter
Bij nominale data is de enige waardevolle berekening het meten van het aantal keer dat een uitkomst zich voordoet en hiervan een verdeling maken. De parameter die getest wordt en geschat wordt in dit gedeelte is het verschil tussen de twee populatie verdelingen p1 en p2.
Statistische verdeling
Om conclusies te trekken over de populatie moet er voor de steekproefgrootte een keuze worden gemaakt. De steekproefvedeling wordt berekend op de manier in bijlage 13.9
De steekproef verdeling van het verschil van de twee populaties wordt beschreven in bijlage 13.10.
Hoofdstuk 14. Analyse van de variantie
14.1 analyse van de variantie
Een analyse van een variantie is een procedure die wordt uitgevoerd om te bepalen waar de verschillen ebstaan tussen twee of meer populatiegemiddelden. Deze techniek analyseert de variantie van de data om te bepalen of de gemiddelden van de populaties verschillen. De techniek die hier wordt gebruikt heet de ‘one-way’ analyse van de variantie. In dit geval zijn beide parameters onbekend. Er worden voor elke populaie onafhankelijke willekeurige steekproeven genomen. Het gevolg hiervan is dat het gemiddelde en de variantie berekend kunnen worden.
Testwijze
Wanneer de nulhypothese waar is, zijn de populatiegemiddeldes gelijk aan elkaar. De verwachting is dan dat de steekproefgemiddeldes in de buurt van elkaar liggen. Als de alternatieve hypothese waar is dan bestaat er een groot verschil tussen sommige steekproefgemiddeldes.
De statistiek die hier wordt gebruikt om de benadering van de steekproefgemiddeldes te berekenen wordt de ‘between-treatments’ variatie genoemd, ookwel SST genoemd. Dat staat voor ‘sum of squares for treatments’.
In bijlage 14.1 staat de formule voor SST.
Uit de formule kan geconcludeerd worden dat de steekproefgemiddeldes dicht bij elkaar liggen. Deze liggen weer dicht bij het grote gemiddelde. Het gevolg is dat de SST klein is. De SST bereikt aar kleinste waarde (nul) wanneer alle steekproefgemiddeldes gelijk aan elkaar zijn.
Zie bijlage 14.2 voor een voorbeeld.
Als er grote verschillen bestat tussen de steekproefgemiddeldes, dan wijken sommige gemiddeldes in grote mate af van het grote gemiddelde. Dit geeft een grote waarde voor de SST. In die situatie kan de nulhypothese worden verworpen.
Om erachter te komen hoeveel variaties er bestaan in het percentage van de bezittingen, wordt een meting gebruikt die de within-treatments variatie wordt genoemd. Dit wordt ookwel de SSE, sum of squares for error genoemd. Deze statistiek geeft een meting van de hoeveelheid variatie in de variabele die niet veroorzaakt is door de behandeling.
De formule voor de sum of squares for error wordt weergeven in bijlage 14.3.
Nadat de SSE is berekend, worden andere hoeveelheden berekend: de mean squares. De mean quare for treatments wordt berekend door de SST te delen door het aantal behandelingen minus 1.
In bijlage 14.4 staat de formule voor de mean quare for treatments.
De mean square of error (MSE) wordt bepaald door de SSE te delen door de totale steekproefgrootte (n) minus het aantal uitvoeringen. In bijlage 14.5 staat de formule voor de MSE.
Tot slot wordt de statistiek waarmee wordt getoetst beschreven as de ratio van de twee gemiddelde kwadraten. Bijlage 14.6 bevat de formle voor de test statistiek.
Het controleren van de voorwaarden
De F-toets voor de analyse van de variantie vereist dat de willekeurige variabele normaal verdeeld is emt gelijke varianties. Dit kan gecontroleerd worden met behulp van een histogram. De gelijkheid van de varianties wordt getoetst door de standaard deviaties van de steekproefverdeling. De gelijkenis van de steekproefvarianties maakt he tmogelijk om te veronderstellen dat de populatievarianties gelijk zijn.
14.2 Meerdere vergelijkingen
Wanneer uit de eenzijdige analyse wordt geconcludeerd dat de variantie ten minste twee gemiddeldes verschillen, dan is het vereist om te weten welke behandeling van de gemiddeldes verantwoordelijk is voor deze verschillen.
Wanneer er bijvoorbeeld vijf stellingen worden gegeven en bepaald moet worden elke waar zijn, is een statistische methode nodig om deze bevestiging te krijgen. De techniek wordt multiple comparisons genoemd.
Fisher’s Least Significant Difference (LSD) methode
De least significant difference (LSD) methode wordt gebruikt om te bepalen wele populatie gemiddeldes verschillen van elkaar. Daarvoor wrdt een serie t-testen uitgevoerd voor het verschil tussen twee gemiddeldes voor alle populatie gemiddelden om te bepalen welke in grote mate afwijken.
De statistische toets en het de schatter voor het zekerheidsinterval worden weergegeven in bijlage 14.7.
14.3 Analyse van de varianties
er bestaat een probleem wanneer er twee populaties worden vergeleken op grond van een enkele factor. Een multifactor experiment zorgt ervoor dat twee of meer factoren in het experiment worden behandeld.
Onafhankelijke steekproeven en blokken
Wanneer de bedoeling is om meer dan twee populaties te vergelijken, wordt er gebruik gemaakt van een techniek die randomized block design wordt genoemd. ‘Block’ refereert naar aan gematchte groep van observaties van elke populatie. Een blok experiment kan ook worden uitgevoerd door hetzelfde onderwerp te gebruiken voor ele uitvoering.
14.4 willekeurige blok (tweezijdige) analyse van de variantie
Het doel van het opstellen van een willekeurige blok experiment is het reduceren van de variaties die ontstaan bij de uitvoering ervan. Hierdoor kunnen de verschillen makkelijker ontdekt worden tussen twee gemiddeldes bij verschillende uitvoeringen. In de eenzijdige analyse van de variantie, wordt een verdeling gemaakt van de totale variatie tussen uitvoeringen en binnen uitvoeringen. Dit leidt tot de volgende formule:
SS(totaal) = SST + SSE
Bij een willekeurige blok ontwerp van de analyse van de variantie wordt een verdling gemaakt van de totale variatie van de drie bronnen van variatie. Dit leidt tot de volgende formule:
SS(totaal) = SST+ SSB + SSE
SSB is in dit geval de sum of squares for blocks. De SSB meet de variatie tussen blokken. Wanneer de variatie die geassocieerd wordt met de blokken wordt verwijderd, is de SSE gereduceerd, wardoor het makkelijker wordt om te bepalen of er verschillen bestaan tussen de behandeling van de gemiddelden.
De definitie van de SS(totaal) en de SSt in het willekeurige blok ontwerp zijn identiek aan die in de onafhankelijke ontwerp. SSE in onafhankelijke steekproeven is gelijk aan de som van de SSB en de SSE in het willekeurige blok ontwerp.
In bijlage 14.8 wordt een overzicht gegeven van het blok experiment.
De toets wordt uitgevoed om te bepalen wat het gemiddelde kwadraat is, wat weer wordt berekend door het te delen door de sum of squares met de bijbehorende vrijheidsgraden.
In bijlage 14.9 wordt een overzicht gegeven van de mean squares.
In bijlage 14.10 wordt een overzicht gegeven van de F-toets voor het blok experiment.
14.5 Twee-factor analyse van de variantie
In een bepaald experiment kunnen er vier levels zijn in een enkele factor. In dit gedeelte wordt het probleem behandeld waar het experiment twee factoren behandelt. De algemene term voor zo een data verzamelende procedure is factorial experiment. In zulke experimenten kan het effect getest worden van het antwoord op een variable of twee of meer factoren. Deze analyse kan gebruikt worden omte bepalen of de levels van elke factor verschillen van elkaar.
De sum of squares worden gedefiniëerd volgens de methode in bijlage 14.11.
De F-toets voor een twee-factor analyse wordt bepaald in bijlage 14.12.
Voor een voorbeeld van een toets zie bijlage 14.13.
14.6 Optionele applicatie in management: het vinden en reduceren van de variatie
Managers gebruiken een theorie die de Taguchi Loss Function wordt genoemd. Hierbij geldt dat producten waarvan de lengte of het gewicht valt binnen de range van de specificatie, functioneren niet op dezelfde manier. Er bestaat een verschil tussen een product dat amper valt in de range en een product dat zich precies in het midden bevindt.
De taguchi loss functie herkent dat enkele afwijkingen van de richtlijn resultren in een financieel verlies. Daarnaast geeft een afwijking van de doelwaarde aan dat er sprake is vaneen groter verlies, naarmate deze afwijking groter is. Elke afwijking zal zorgen voor een deel dat waarschijnlijk andere delen zal beïnvloeden op een negatieve manier en verliezen kan creëren.
In de situatie dat er gebruik wordt gemaakt van garanties, kan het probleem verergeren. Wanneer een goed verplaatst moet worden, zal dit vaker gebeuren naarmate de afwijking groter is van de opgestelde richtlijn.
Zie bilage 14.14 voor een weergave van de taguchi loss functie.
De verleisfunctie kan worden uitgedrukt als een functie van het productieproces gemiddelde en de variantie. Om de variantie te kunnen verminderen is het noodzakelijk om de bron van de variatie op te sporen. Dit wordt gedaan door het regelmatig uitvoeren van experimenten.
Hoofdstuk 15. Chi-kwadraat toets
15.1 Chi-kwadraat
De chi-kwadraat toets is een andere toets die ontworpen is om een populatie met nominale data te beschrijven. In dit gedeelte wordt gebruik gemaakt van een multinominaal experiment, wat een uitbreiding is van het binominale experiment. Dit houdt in dat er twee of meer mogelijke uitkomsten zijn bij een experiment.
De uitwerking van een multinominaal experiment is te vinden in bijlage 15.1.
Toets
Bij het uitvoeren van een experiment kan de nulhypothese waar of onwaar zijn. In het algemeen kan er een verwachte frequentie worden opgesteld. Dit wordt gedaan aan de hand van een formule voor de verwachte waarde van een willekeurige binominale variabele.
Wanneer de verwachte frequenties en de geobserveerde frequenties in grote mate van elkaar verschillen, kan geconcludeerd worden dat de nulhypothese fals is en verworpen moet worden. In het geval dat de verawchte en de geobserveerde frequenties gelijk zijn, wordt de nulhypothese niet verworpen.
In bijlage 15.2 staat de toets van de chi-kwadraat methode.
Voorwaarden
De steekproefverdeling van de toets is discreet, maar kan benaderd woden met de chi-kwadraat methode waarbij de steekproefgrootte zeer groot is. Deze vereiste is gelijk aan die voor de normale benadering in de binominale steekproefverdeling van een proportie.
15.2 Chi-kwadraat toets voor een eventualiteitentabel
De chi-kwadraat tabel wordt gebruikt om te bepalen of er genog bewijs is om aan te tonen dat er twee nominale variabelen zijn die gerelateerd zijn en aan te tonen dat erverschillen bestaan tussen twee of meer populaties van nominale variabelen.
Om deze twee doelen te bereiken is het noodzakelijk om items te classificeren naar twee verschillende criteria.
Toets
De toets die gebruikt wordt is hetzelfde als die in de chi-toets.
Bijlage 15.3 bevat de test statistiek.
Als de nulhypothese wordt onderzocht, kan een groot verschil worden ontdekt. In de chi-toets geeft de nulhypothese waarden weer voor de kansen. De nulhypothese voor de chi-kwadraat toets in een mogelijkheidstabel geeft aan dat twee variabelen onafhankelijk zijn.
In een mogelijkheidstabel worden de kansen weergegeven die afgeleid zijn in een berekening van de verwachte waardes over de assumptie dat de nulhypothese waar is.
Bijlage 15.4 bevat een berekening voor de verwachte frequenties in een mogelijkheidstabel.
15.3 Het begrijpen van statistische concepten
De omgang met nominale data kan worden beschreven aan de hand van een figuur. Deze figuur is te vinden in bijlage 15.5. De frequentie wordt bepaald voor elke categorie en deze frequenties worden gebruikt om een berekening te maken voor de statistieken. Daarna kunnen in gedeeltes de z-statistieken worden berekend en kunnen de frequenties worden berekend om de chi-statistieken te verkrijgen.
Hoofdstuk 16. Simpele lineaire regressie en correlatie
Regressie analyse wordt gebruikt om de waarde van een variabele op basis van een andere variabele te bepalen. Dee techniek wordt het meest gebruikt bij statistische procedures, omdat bijna alle bedrijven en overheden voorspellingen van variabelen proberen te maken. Dit geldt bijvoorbeeld voor de vraag naar producten, rentetarieven, inflatiepercentages, de prijzen van rauwe producten en loonkosten.
Deze techniek makat gebruik van de ontwikkeling van een wiskundig model of een model dat de relatie beschrijft tussen twee variabelen die voorspeld moeten worden. De variabele die voorspeld wordt, heet de afhankelijke variabele. De variabele die gebruikt wordt om te kunnen voorspellen, heet de onafhankelijke variabele.
Bij het bepalen van een realtie wordt er gebruik gemaakt van correlatie analyse. Dit is een techniek een grafische methode gebruikt om de associatie tussen twee variabelen in een interval te bepalen.
Doordat regeressie analyse veel verschillende technieken en concepten omvat, kan er een verdeling worden gemaakt in drie gedeeltes. Er bestaan technieken die het mogelijk maken om te bepalen wat de relatie is tussen twee variabelen. Vervolgens kan ditzelfde voor meerdere variabelen worden gedaan. Tot slot kunnen regressiemodellen worden opgesteld om dit te bepalen.
16.1 Model
Het ontwikkelen van een model kan complex zijn en er moet aandacht worden besteed aan de manier waarop dit wordt gedaan. De relatie tussen de variabelen is van belang.
Bij een first-order lineair model, ookwel simpele linaire regressie model genoemd, worden mogelijke modellen opgesteld. In bijlage 16.1 staat het simpele regressie model samengevat.
16.2 Schatten van de coëfficiënten
De parameters worden op gelijke wijze geschat als de andere parameters van het lineaire model. Er wordt ene willekeurige steekproef genomen van de populatie en aan de hand daarvan worden berekeningen gemaakt voor de parameters.
Voor het bepalen van de coëfficiënten van de minste kwadraten volgens de juiste methode, wordt de wijze gehanteerd in bijlage 16.2.
16.3 Error variabele: vereiste voorwaarden
In dit gedeelte wordt een inferentiële methode gebruikt om te bepalen of er een relatie bestaat tussen twee afhankelijke en onafhankelijke variabelen. Daarnaast kan dit regressiemodel gebruikt worden om een schatting te maken en te voorspellen.
De volgende vereisten bestaan voor een error variabele:
De kansverdeling van e is normaal.
Het gemiddelde van de verdeling is nul.
De standaardafwijking van e is gelijk aan de standaarddeviatie van e. Daarbij is die standaardafwijking constant onafhankelijk van de waarde van x.
De waarde van e geassocieerd met elke waarde vn y is onafhankelijk van e geassocieerd met elke andere waarde van y.
16.4 een model beoordelen
Er kunnen verschillende methodes worden gebruikt om een model te evalueren. De eerste is de sum of squares error. Om de SSE handmatig te berekenen is veel wiskunde nodig. Er bestaat wel een krotere methode die de steekproefvariantie en de covariantie berekent.
Zie bijlage 16.3 voor de formule van de korte berekening van de SSE.
Standaard error
De error variabele e is normaal verdeeld met een gemiddelde van nul en een standaarddeviatie die constant is. Als de standaarddeviatie groot is, dan zijn sommige errors groot. Dit geeft aan dat het model niet passend is. Ls de standaarddeviatie klein is, dan zijn de errors dichtbij het gemiddelde (nul). Dit model is dan meer passend gezien de vorige situatie.
Bijlage 16.4 bevat de formule voor de schatter van de variantie van de error variabele.
De helling
Om het model van regressie te begrijpen is het nodig om de consequenties van de regressiemethode op twee variabelen uit te werken. Als de gehele populatie geobserveerd kan worden, kan er een regressie lijn worden getrokken. Dan wordt er een spreidingsdiagram opgesteld. De lijn is horiontaal, want inhoudt dat de waarde van y hetzelfde is ongeacht de waarde van x. In dit geval is y niet gerelateerd aan x. De helling van de lijn is dan ook gelijk aan nul.
Bijlage 16.5 bevat een afbeelding van een spreidingsdiagram.
Bij het testen van hypotheses wordt dezelfde methode gehanteerd als het testen van parameters. Er wordt begonnen met een hypothese. De nulhypothese geeft aan dat er geen lineaire relatie is, wat betekent dat de helling nul bedraagt. Wanneer de nulhypothese waar is, betekent het dat er geen relatie bestaat.
Bijlage 16.6 bevat een figuur waarin dit verband wordt aangetoond.
Coëfficiënt van bepaling
De bèta geeft aan of er genoeg bewijs is om aan te tonen dat er een lineaire relatie bestaat. Beter is om de stekrte van de linaire relatie te meten. De wijze waarop dit kan worden gedaan is met behulp van de coëfficiënt van determinatie. Deze wordt aangeduid als R2.
De formule voor het berekenen van deze statistiek is gegeven in bijlage 16.6.
Bij de analyse van de variantie wordt er een verdeling gemaakt in de variatie van y in twee gedeeltes: de SSE, die de heoveelheid variatie in y meet die onverklaard blijft en SSr, die meet hoeveel variatie er i y bestaat die uitgelegd wodt door de variatie in de onafhankelijke variabele x. Deze analyse kan verwerkt worden in de definitie van R2.
De verwerking van deze theorie wordt gegeven in bijlage 16.7.
Oorzaak en gevolg
Een conclusie over de oorzaak van een verandeirngen in de afhankelijke variabele moet gerechtvaardigd worden door een redelijke theorie en een bijbehorende aantoonbare relatie. Statistische testen kunnen aantonen dat hoe meer mensen roken, hoe groter de kans op ontwikkeling van longkanker is. Zo een toets laat zien dat roken en longkanker op enige wijze gerelateerd zijn.
Testen van de correlatie coëfficiënt
De correlatie coëfficiënt kan gebruikt worden om de sterkte van de relatie tussen twee variabelen te meten. Om te bepalen hoe een onafhankelike variabele gerelateerd is tot een afhankelijke variabele, wordt er een schatting gemaakt en een lineair regressie model opgesteld.
Wanneer je enkel geïnteresseerd bent in het feit of er een linaire relatie bestaat en niet de sterkte van de relatie, dan wordt er observerende data gebruikt en een normaalverdeling. Aan de hand daarvan worden de correlatie coëfficiënt opgesteld en wordt deze gebruikt om het lineaire verband te testen.
De steekproef coëfficiënt van de correlatie wordt gegeven in bijlage 16.8.
16.5 De regressievergelijking
Er wordt gesproken van punt voorspelling in de situatie dat y een punt is dat geschat moet worden voor ene bepaalde waarde van x. Die aarde is dan al gegeven. Zo een punt vorospeling geeft geen informatie over hoe dicht de waarde bij de werkelijke waarde ligt. Om daar achter te komen moet er een interval worden gebrukt. Er kunnen een of twee intervallen worden gebruikt: het voorspellingsinterval of een specifieke waarde voor y of een interval schatter voor de verwachte waarde van y.
Het voorspellingsinterval is gegeven in bijlage 16.9.
Schatten van de verwachte waarde van y
Om een schatting te maken van het gemiddelde van y voor de lange termijn moet er een interval worden gebruikt als zekerheidsinterval. De punt schatter is y in dit geval, maar de grenzen van de schatting verschillen van die van het interval in de volgende formule. Zie voor de formule bijlage 16.10.
16.6 Regressie diagnostiek
Residuale analyse
Bij residuale analyse worden er overige gedeeltes getoetst. Residuën worden gestandariseerd op dezelfde manier als andere variabelen. Dt wordt gedaan door het gemiddelde te delen door de standaarddeviatie. Het gemiddelde van de residuën is nul. De standaarddeviatie is onbekend en daarom moet de waarde daarvan worden geschat.
Een formule die gebruikt kan worden voor dit procent is gegeven in bijlage 16.11.
Buitenligger
Een buitenligger is een observatie die ongewoon groot of klein is. Als er een range is waarbinnen alle waarnemingen vallen en er doet zich een punt voor dat hier ver buiten ligt. Dan is er sprake van een buitenligger.
Buitenliggers kunnen geïdentificeerd worden in een spreidingsdiagram.
Invloedrijke observaties
Af en toe komt het voor bij regressie analyse dat er meer observaties zijn die en grote invloed hebben op de statistieken.
Hoofdstuk 17. Meervoudige regressie
17.1 model
In dit model wordt er verondersteld dat er k onafhankeljke variabelen zijn die mogelijk gerelateerd zijn aan de afhankelijke variabele. Het model wordt voorgesteld in bijlage 17.1.
De error variabele blijft behouden doordat er afwijkingen bestaan tussen de voorspelde waarden van y en de werkelijke waarden van y. Een belangrijk onderdeel van de regresie analyse bestaat uit verschillende technieken die evalueren hoe goed het model in de data past. Deze technieken hebben de volgende vereiste voorwaarden:
De kansverdeling van de error variabele e is normaal verdeeld.
Het gemiddelde van de error variabele is nul.
De standaard deviatie van e is constant.
De errors zijn onafhankelijk.
17.2 Schatten van de coëfficiënten en het model bepalen
De regressie analyse wordt uitgevoerd aan de hand van de volgende stappen:
Er wordt een variabele geselecteerd die lineair gerelateerd is aan de afhankelijke variabele.
Er wordt een computer en software gebruikt om de coëfficiënten te genereren en statistiek wordt gebruikt om het model op te stellen.
Er wordt een diagnose opgesteld met vereiste voorwaarden. Daarnaast wordt getoetst welke voorwaarden geschonden worden en of dit een probleem is.
De toepasselijkheid van het model wordt getoetst. Drie statistieken worden gebruikt om de standaard afwijking te schatten, de coëfficiënt van determinatie en de F-toets wordt uitgevoerd om de variantie te analyseren.
Als er tevredenheid bestaat over het model en er wordt voldaan aan de voorwaarden dan kunnen de coëfficiënten worden geïnterpreteerd. Het model kan dan gebruikt worden om de waarde van een afhankelijke variabele te schatten.
Standaard error
De standaard deviatie van de error is een variabele e en doordat de standaarddeviatie een parameter is, is het noodzakelijk om een schatting te maken van de waarde.
In bijlage 17.2 staat de formule voor de schatting van de waarde van de standaarddeviatie.
Coëfficiënt van determinatie
De formule voor de determinatie coëfficiënt is al eerder aan de orde geweest. In deze situatie moet de volgende formule worden gebruikt om een valse impressie te voorkomen: zie bijlage 17.3.
De validiteit testen
In een simpel regressiemodel wordt de helling getest om te bepalen of er voldoende bewijs is om te conclderen dat er een linaire relatie bestaat tussen de afhankelijke en onafhankelijke variabele. Er is echter geen onafhankelijke variabele in het model dat dezelfde t-toets heeft ondergaan om te bapeln of dat model geldig is. Wanneer er meer dan een onafhankelijke variabele is, is er een andere methode nodig om te testen of de geldigheid van het model gerechtvaardigd kan worden.
Testen van coëfficiënten
In het meervoudige regressiemodel bestaat er meer dan een onafhankelijke variabele. Daarvoor is het mogelijk te bapeln of er genoeg bewijs is voor een linaire relatie tussen deze onafhankelijke variabele en de afhankelijke variabele voor de gehele populatie wanneer de andere variabelen in het model inbegrepen zijn.
In bijlage 17.4 staat de toetswijze voor coëfficiënten.
Interpreteren van coëfficiënten
De coëfficiënten geven de relatie weer tussen twee onafhankelijke variabelen en afhankelijke variabelen. Het kan zo ijn dat er een model is dat genoeg bewijs geeft m te conldueren dat een bepaalde onafhankleijke ariabele linair verbonden is met een afhankelijke variabele, maar dat dit bewijs niet bestaat in een ander model. Het gevolg hiervan is dat een t-toets niet significant is, dit als gevolg heeft dat er geen bewijs is dat de variabelen met elkaar verbonden zijn of aan elkaar gerelateerd zijn. Een ander model kan een andere conclusie geven over het verband tussen de afhankelijke en onafhankelijke variabele.
Daarnaast kan het zo zijn dat een of meer van de voorwaarden geschonden zijn. Dit geeft als resultaat dat de conclusie van het onderzoek of experment ongeldig is.
17.3 Regressie diagnostiek
Er is een procedure die gevolgd kan worden om te bepalen of er problemen zijn in het meervoudige regressiemodel. Hier volgt een korte samenvatting:
Is er een error variabele die niet normaal is? Teken de histogram van het residu.
Is er een error variantie constant? Plot het residu en de voorspelde y-waarden.
Zijn de errors onafhankelijk? Plot het residu en de tijdsperioden.
Zijn er observaties die ongeldig zijn of niet tot de doelgroep van de populatie behoren? Controleer de geldigheid van de buitenliggers en de invloedrijke observaties.
Als de error niet normaal is en de variantie is niet constant, dan zijn er verschillende manieren die gebruikt kunnen worden om dit op te lossen. Buitenliggers en invleodrijke observaties kunnen gecontroleerd worden door de data te toetsen op zorgvuldigheid.
Onafhankelijkheid van een tijdsreeks kan soms gedetecteerd worden door het tekenen van het residu en de tijdsperiode en dan te kijken naar bewijs voor automatische correlatie.
Een ander probleem dat van toepassing is op een meervoudig regressiemodel is multicollinearity. Dit is een toestand waarin de onafhankelijke variabelen hoger gecorreleerd zijn. Dit verstoort de uitkomsten van de t-toets voor de coëfficiënten, waardoor het moeilijk wordt om te bepalen of er andere onafhankelijke variabelen lineair verbonden zijn met de afhankelijke variabelen.
Multicollinearity
Multicollinearity is een conditie die bestaat wanneer de onafhankelijke variabelen gecorreleerd zijn aan elkaar. Het tegengestelde effect heirvan is dat er de voorspelde of verwachte regressie coëfficiënt van de onafhankelijke variabelen die gecorreleerd zijn grote afwijkingen hebben.
Dit fenomeen heeft twee gevolgen. De eerste is dat de variatie van de coëfficiënten groot is. De steekproef coëfficiënt kan ver liggen van de actuele populatie parameter. Hierbij inbegrepen de mogelijkheid dat de statistische parameter twee verschillende directies kan hebben. Het tweede is dat wanneer de coëfficiënten getoetst worden, de t-toetsen klein zullen zijn. Dit leidt tot de conclusie dat er geen lineair verband is tussen de onafhankelijke variabelen en de afhankelijke variabelen.
Dit fenomeen bestat in alle meervoudige regressiemodellen. Het is zeer onwaarschijnlijk dat er twee niet gecorreleerde onafhankelijke variabelen worden gevonden. Dit probleem wordt pas ernstig in de situatie dat er twee of meer onafhankelijke variabelen hoog gecorreleerd zijn. Er is echter geen emetwaarde opgesteld waaraan die correlatie moet voldoen o hier onder te vallen.
Om het effect te minimaliseren van deze correlatie tussen de onafhankelijke variabelen, kan de uitvoerder proberen onafhankelijke variabelen te gebruiken die onafhankelijk van elkaar zijn. Dit kan gedaan worden door de correlatie van te voren uit te zoeken en op basis daarvan variabelen te selecteren.
17.4 Regressie diagnostiek
Om te zien of errors onafhankelijk van de data zijn die gebruikt worden in een tijdsreeks wordt er een check gedaan. In dit gedeelte wordt de Durbin-Watson test gebruikt.
Durbin-Watson test
De Durbin-Watson test maakt het mogelijk om te bepalen of er bewijs is dat de eerste orde autocorrelatie op de volgende wijze kan worden gepresenteerd: zie bijlage 17.5.
Als er sprake is van een positieve eerste orde correlatie, dan ziet het verloop van een diagram eruit zoals in bijlage 17.6.
Indien er srake is van een dalende positieve eerste orde correlatie, dan ziet het diagram eruit als in bijlage 17.7.
Hoofdstuk 18. Modellen opstellen
In dit gedeelte worden modellen geïntroduceerd waarin de relatie tussen de afhankelijke variabele en de onafhankelijke variabele niet lineair kan zijn. Hierbij wordt gebruik gemaakt van indicator variabelen, die het mogelijk maken om om nominale onafhankelijke variabelen te gebruiken. Daarnaast wordt stapsgewijze regressie toegelicht en uitgewerkt.
18.1 Veelvoudige modellen
In deze sectie worden modellen gebruikt waarbij de onafhankelijke varibelen functies zijn van een kleiner aantal voorspellende variabelen. De meest simpele vorm van het polynomiaal model is beschreven in bijlage 18.1.
Technisch gezien is hier sprake van een meervoudig regresiemodel met p onafhankelijke variabelen. Echter zijn alle variabelen die onafhankelijk zijn van een andere variabele voorspellingsvariabelen. In dit model is p de volgorde van de vergelijking.
Eerste orde model
Het model dat nu gebruikt wordt lijkt op het simpele lineaire regressiemodel uit hoofdstuk 16. Daarom wordt dit model het eerste orde polynomiale model genoemd.
Dit model wordt gebruikt wanneer onderzoekers menen dat er een lineaire relatie bestaat tussen de afhankelijke en onafhankelijke variabelen voor een reeks waarden van x.
Tweede orde model
Bij het tweede orde model ontstaat er een parabool voor de formule. De formule voor dit tweede orde polynomiale model staat in bijlage 18.2.
De eerste β kan nul zijn en dan is de parabool symmetrisch in het midden van x = 0. Als de eerste en tweede β dezelfde grootte hebben, dan schuift de parabool naar links. Als de eerste en tweede β een plus en min teken hebben, dan schuift de parabool naar rechts. De coëfficiënt van β geeft de kromming aan. Als de tweede β bijvoorbeeld nul is, dan is er geen curve. Als de tweede β negatief is, dan is de grafiek concaaf. Als de tweede β positief is, dan is de grafiek bol.
Zie bijlage 18.3 voor elk van de hiervoor beschreven grafieken.
Derde orde model
De formule voor de derde orde staat in bijlage 18.4.
Wanneer de derde β negatief is, dan daalt de waarde van y in het verdere verloop van x. De andere coëfficiënten bepalen de positie van de kromming en de veranderingen in het punt waar de curve snijdt met de y-as.
Eerste orde model met twee voorspellers
Interactie betekent dat het effect van de eerste x op y beïnvloed wordt door de waarde van de tweede x. De volgende formule is hierbij van toepassing: zie bijlage 18.5.
Tweede orde model met interactie
Als er een kwadratische relatie bestaat tussen y en elke x, dan kan de voorspellende variabele het effect op y weergeven en wordt het voglende tweede orde model gebruikt: zie bijlage 18.6.
Voorbeeld
Als een restaurant bijvoorbeeld p zoek is naar nieuwe locaties voor haar restaurant, dan moeten een aantal factoren in overweging worden genomen. Als er een analyst is die werkt voor een restaurant en gevraagd wordt om een regressiemodel op te stellen dat helpt om te identificeren waar nieuwe locaties voordelen op zullen leveren. De analyst weet dat het type restaurant gericht is op een doelgroep en daarom moet de locatie gekozen worden op een plek waar deze doelgroep zich in grote mate bevindt.
Oplossing
De afhankelijke variabele is de brutowinst of de netto winst. De voorspellende variabele is het gemiddelde inkomen van een huishouden per jaar en de gemiddelde leeftijd van de kinderen in de buurt van het restaurant. De relatie tussen de afhankelijke en de voorspellende variabele zijn waarschijnlijk kwadratisch. In andere woorden betekent dit dat de leden van een huishouden minder geneigd zijn om naar zo een restaurant te gaan, omdat het vooral mensen met gemiddelde inkomens aantrekt.
Zie bijlage 18.7 voor de figuur die dit verband omschrijft.
18.2 nominale onafhankelijke variabelen
Bij regressie analyse gaat het er om dat alle variabelen interval variabelen moeten zijn. Echter in de werkelijkheid, zijn er een of meer onafhankelijke variabelen nominaal.
Om te begrijpen waarom nominale data niet gebruikt kan worden in regressie analyse, is het noodzakelijk om de coëfficiënten te interpreteren. Het is wel mogelijk om nominale variabelen in regressiemodellen te gebruiken. Dit wordt gedaan met behulp van indicator variabelen.
Een indicator variabele is een variabele die een veronderstelling kan maken over een of twee waardes, meestal nul en een. In dat geval representeert één het bestaan van een zekere toestand en nul impliceert dat die toestand niet bestaat.
Zo kan een indicator worden gemaakt voor de kleur van een auto:
I1 = 1 (als de kleur wit is)
0 (als de kleur niet wit is)
I2 = 1 (als de kleur blauw is)
0 (als de kleur niet blauw is)
I3 = 1 (als de kleur groen is)
0 (als de kleur niet groen is)
18.3 Optionele stapsgewijze regressie
Een van de doelen van regressie is te analyseren of en hoe elke onafhankelijke variabele gerelateerd is met de afhankelijke variabele. In dit geval is het nodig om het effect van multicorrelatie te verminderen.
En van de manieren om dit effect te verminderen is om onafhankelijke variabelen te gebruiken die waarschijnlijk geen correlatie ebben met de andere onafhankelijke variabelen. Een correlatie matrix kan worden opgesteld om te bepalen of er een correlatie bestaat voor elk paar van de variabelen die in het onderzoek wordt gebruikt. Deze matrix kan echter niet altijd identificeren of er een dubbele correlatie is en dit een probleem zal vormen in het onderzoek, omdat er veel verschillende manieren bestaan voor variabelen om aan elkaar gerelateerd te zijn. Het gevolg hiervan is dat een correlatie matrix niet altijd het probleem aan het licht brengt.
Stapsgewijze regressie kan gebruikt worden als alternatieve porcedure om het effect van correlatie tussen de onafhankelijke variabelen te verminderen. Er wordt gekeken of een variabele waarde toevoegt aan het model, zo niet dan wordt de variabele buiten beschouwing gelaten in het model.
Stapsgewijze regressie procedure
Het proces begint met het berekenen van een simpel regressie model voor elke onafhankelijke variabele. De onafhankelijke variabele met de grootste F-toets of gelijke waarden met de kleinste p-waarde wordt gekozen als de eerste variabele.
Vervolgens wordt geconstateerd of het model verbetert door het toevoegen van een andere variabele. Wanneer twee onafhankelijke variabelen hoog gecorreleerd zijn, komt maar een van de twee in de vergelijking. Als de erste variabele is toegevoegd, dan kan een tweede variabele met verklarende kracht niet worden toegevoegd, omdat de F-toets niet groot genoeg zal zijn om tot het model toe te treden. Op deze wijze wordt multicorrelatie voorkomen.
Deze procedure gaat door voor elke variabele die toegevoegd kan worden.
18.5 Een model bouwen
Regressie analyse wordt gebruikt om te bepalen hoe een of meer voorspellende variabeen gerelateerd zijn aan aan afhankelijke variabele of om een voorspelling te maken over een afhankelike variabele en een schatting te geven van de verwachte waarde.
De volgende procedure wordt gevolgd bij het bouwen van een model:
De afhankelijke variabele wordt geïdentificeerd. Kies de variabele die je wilt analyseren of voorspellen.
Maak een lijst van mogelijke voorspellers. Kijk naar de afhankelijke variabele en probeer een keus te maken voor een voorspeller die in verband kan staan met de afhankelijke variabele.
Verzamel de vereiste observaties voor het potentiële model. Een algemene regel is dat er ten minste zes observaties moeten worden gemaakt voor elke onafhankelijke variabele in de vergelijking.
Identificeer meerdere mogelijke modellen. Gebruik je kennis over de afhankelijke variabele en voorspellende variabelen om te bepalen welke variabelen in het model moeten worden opgenomen.
Gebruikt statistische software om het model te schatten. Gebruik een of meer variabelen om methoden te selecteren die beschreven zijn om te bepalen welke variabelen in het model meoten worden ogpenomen. Als het doel is om te bepalen welke voorspellende variabelen gerelateerd zijn aan de afhankelijke variabelen, dan moet er geen sprake zijn van multicorrelatie.
Bepaal of aan de vereiste voorwaarden wordt voldaan. Is dit niet zo, dan moet er een correctie worden gemaakt om dit probleem op te lossen.
Gebruik je verstand om de statistische output te selecteren voor het model. Dit kan het moeilijkste gedeelte van het proces zijn. Er kan een best passend model zijn, maar een ander model kan minder variabelen hebben en makkelijker zijn om mee te werken.
Hoofdstuk 19. Geen parameters
Dit hoofdstuk behandelt statistische technieken die omgaan met ordinale data. Er worden drie methoden toegelicht die twee populaties vergelijken. Er worden twee procedures gebruikt om een vergelijking te maken tussen twee of meer populaties en en techniek om de relatie tussen twee variabelen te analyseren.
Wanneer twee populaties op basis van interval data worden vergeleken, worden de verschillen tussen de gemiddeldes gemeten. Wanneer de data ordinaal is, is het gemiddelde niet de juiste meting van de locatie. Er moet een methode worden gebruikt waarbij het mogelijk is de karakteristieken te testen zonder te verwijzen naar specfieke paramters. Daarom worden deze technieken zonder parameter technieken genoemd. Hier wordt getest of de populatie locaties verschillen.
Hoewel zonder parameter technieken opgesteld zijn om ordinale data te testen, kunnen ze ook op een andere manier worden toegepast. Als de data extreem abnormaal zijin, dan zijn de t-toets en de F-toets niet geldig. Zonder parameter technieken kunnen indat geval worden uitgevoerd. Deze procedures woden vaak verdelingsvrije statistieken genoemd.
Wanneer er een vedeling van twee populaties bestaat en hun locatie hetzelfde is kan er een onderzoek worden uitgevoerd. Er is geen kennis over de vorm van de verdelingen, dus worden ze verondersteld als abnormaal.
Wanneer het doel is om twee populaties te vergelijken kan de volgende nulhypothese worden opgesteld:
H0: de twee populatie locaties zijn hetzelfde.
De aternatieve hypothese kan een van de volgende drie vormen aannemen:
Wanneer het gewenst is om te weten of er voldoende bewijs is om te concluderen dat er een verschil bestaat tussen twee populaties, is de alternatieve hypothese:
H1: De locatie van de populatie 1 is anders dan die van de populatie op locatie 2.
Als je wilt weten of er geconlcudeerd kan worden dat een willekeurige variabele in de opulatie 1 groter is in het algemeen dan de willekeurige variabele in populatie 2, dan is de alternatieve hyothese:
H1: De locatie van populatie 1 is rechts van de locatie van populatie 2.
3. Als je wilt weten of er geconcludeerd kan worden dat de willekeurige variabele in ppulatie 1 kleiner is in het algemeen dan in populatie 2, dan is de alternatieve hypothese:
H1: De locatie van populatie 1 is links van de locatie van populatie 2.
19.1 Wilcoxon rangorde test
De wilcoxon rangorde test verwerkt de volgende problemen:
Het probleem van het objectief vergelijken van twee populaties.
De data is ordinaal of interval voor het gebied waar de normaliteit vereist is om gelijke variantie te toetsen.
De steekproeven zijn onafhankelijk.
Voorbeeld
Een toets kan uigevoerd worden om te bepalen of bepaalde observaties van twee populaties kan leiden tot de concusie dat er 5% significantie bestaat.
Eerste steekproef: 22 23 20
Tweede steekproef: 18 27 26
De volgende hypotheses worden getest:
H0: De twee populatie locaties zijn hetzelfde.
H1: De locatie van populatie 1 ligt links van de locatie van populatie 2.
De eerste stap is om een rangorde te maken van alle zes observaties. De eerste rangorde is voor de kleinste observatie en de zesde voor de grootste observatie.
Steekproef 1 | Rangorde | Steekproef 2 | Rangorde |
22 | 3 | 18 | 1 |
23 | 4 | 27 | 6 |
20 | 2 | 26 | 5 |
Geobserveerd kan worden dat 18 het kleinste nummer is, daarom ontvangt het de eerste plaats. De tweede stap is om te berekenen wat de som is van alle rangordes van ele steekproef. Van de eerste rangorde is deze som 9 en van de tweede rangorde is deze som 12. Deze waardes worden gebruikt voor de t-toets.
Een kleine waarde van T geeft aan dat meerdere van de lage observaties in de eerste rangorde liggen en de grotere in de tweede steekproef. De steekproef verdeling van het steekproefgemiddelde moet worden bepaald. Hiervoor moet een verdeling voor t worden gemaakt. Alle mogelijke waarden van T worden hiervoor benaderd.
Bijlage 19.1 bevat een tabel met alle mgoelijke rangordes voor twee steekproeven met een grootte van 3.
Als de nulhypothese waar is en de twee populaties hebben een identieke locatie, dan zijn de mogelijke rangordes waarschijnlijk gelijk.
Vereiste voorwaarden
De Wilcoxon rangorde test toetst om te bepalen of de populatieverdelingen gelijk zijn. Dit betekent dat niet alleen identieke locaties wroden getoetst maar ook identieke spreiding (varianties) en vormen (verdelingen).
De afwijzing van de nulhypothese hoeft niet per se te betekenen dat er een verschil bestaat in de locaties van de populaties. De afwijzing kan het resultaat zijn van een verschil in verdelingen van de vorm of spreiding. Om dit probleem te voorkomen is het noodzakelijk dat twee kansverdelingen identiek zijn met betrekking tot de locatie. Dit is de focus van de toets.
19.2 Wilcoxon rangorde som test
In dit gedeelte worden twee zonder parameter technieken gebruikt die de hypotheses testen met de volgende karakteristieken:
Het probleem om objectieve data van twee populaties te vergelijken.
De data zijn ordinaal of interval.
De steekproeven zijn verbonden in paren.
Teken test
De teken test wordt uitgevoerd in de volgende situaties:
Het probeem is om twee populaties objectief te vergelijken.
De data is ordinaal.
Het experiment ontwerp is verbonden in paren.
Toets
De teken toets is vrij simpel. Voor elk paar wordt het verschil berekend tussen de observaties van de eerste en tweede steekproef. Dan worden de positieve verschillen en de negatieve verschillen bij elkaar opgeteld. Als de nulhypothese waar is, dan kan een positief veschil verwacht worden dat ongeveer gelijk is aan het aantal negatieve verschillen.
De Wilcoxon signed rank sum test wordt gebruikt onder de volgende omstandigheden:
Het probleem is omeen objectieve vergelijking te maken tussen twee populaties.
De data is interval, maar niet normaal verdeeld.
De steekproeven zijn verbonden paren.
19.3 Kruskal-Wallis test
Hier komen twee statistische procedures aan de orde die ontwikkeld zijn om een vergelijking te maken tussen twee of meer populaties. De Kruskal-Wallis test wordt toegepast op problemen met de volgende eigenschappen:
Het probleem is om een objectieve vergelijking te maken tussen twee populaties.
De data zijn ordinaal of interval, maar niet normaal.
De steekproeven zijn onafhankelijk.
Als de data interval en abnormaal zijn, wordt er een eenzijdige analyse voor de variantie volgens de F-toets uitgevoerd. Als de data abnormaal is, wordt de data behandeld alsof deze ordinaal is. Hierop wordt de Kruskal-Wallis test uitgevoerd.
De tweede procedure is het uitvoeren van de Friedman test, welke wordt toegepast op problemen met de volgende karakteristieken:
Het probleem is om ene objectieve vergelijking te maken tussen twee of meer populaties.
De data is ordinaal of interval, maar niet normaal.
De data is opgesteld uit een willekeurig blok experiment.
Test
De eerste stap is om een rangorde te maken van alle observaties. Als de nulhypothese waar is, dan zijn de rangordes gelijk verdeeld over de steekproeven. De toetswaarde H wordt op de volgende wijze berekend: zie bijlage 19.2.
Verdeling
De verdeling van de toetswaarde kan afgeleid worden op dezelfde manier als die in de Wilcoxon Rank Sum test. In andere woorden, alle mogelijke combinaties van rangordes. Er kan een tabel worden opgesteld van de kritiek waarden. Dit is alleen mogelijk voor kleine steekproeven.
Friedman test
Om de toetswaarde te berkeneen moeten de observaties gerangschikt worden binnen elk blok. Bijlage 19.3 bevat de formule die hierbij nodig is.
19.4 Spearmen rangorde correlatie coëfficiënt
De correlatie coëffciënt maakt het mogelijk om te bepalen of er bewijs is van een lineaire relatie tussen twee interval variabelen. De vereiste voorwaarde voor een t-toets voor p is dat de variabelen normaal verdeeld zijn.
Wanneer er sprake is van ordinale variabelen of interval variabelen, dan is aan het normale verdeling vereiste niet voldaan. In dat geval wordt de relatie gemeten en bepaald door een zonder paramter techniek, de Spearman rangorde correlatie coëfficiënt.
Deze techniek wordt op dezelfde manier berekend als de andere zonder paramter methodes.
De formule van deze techniek is beschreven in bijlage 19.4.
De formule voor de toetswaarde van deze methode is gegeven in bijlage 19.5.
Hoofdstuk 20. Tijdsreeksen en voorspelling
Het doel van dit hoofdstuk is het analyseren van tijdsreeksen om patronen te ontdekken die he tmogelijk maken toekomstige waardes van de tijdsreeksen te voorspellen.
Hieronder enkele voorbeelden:
Overheden willen weten wat toekomstige waarden van rentepercecntages zijn, werkloosheidspercentages en percentages in de kosten van het huishouden.
Huishoudelijke industrie economen moeten voorspellinge maken over de hypotheekrentes en vraag naar huizen en de kosten voor de bouwmaterialen van huizen.
Veel bedrijven proberen de vraag te voorspellen voor hun producten en hun aandeel in de markt.
Universiteiten en colleges proberen een vorospelling te maken voor het aantal studenten dat zich zal aanmelden voor acceptatie.
Voorspellen is een gewoonlijke uitvoering die gedaan wordt door managers en de overheid. In dit gedeelte wordt aandacht besteed aan voorspelling voor tijdsreeksen, waarbij historische data wordt gebruikt om de toekomstige waarden te voorspellen zoals sales of werkloosheidspercentages.
Er bestaan veel verschillende voorspellingstechnieken. Sommige zijn gebaseerd op het ontwikkelen van een model dat probeert te analyseren wat de relatie is tussen een afhankelijke variabele en een meer onafhankelijke variabele. De voorspellingsmethoden die zullen worden gebruikt, zijn gebaseerd op tijdsreeksen. Het doel is om concepten aan het licht te brengen die voorspellen.
20.1 Tijdreeksen
Een tijdsreeks kan bestaan uit vier verschillende componenten:
Lange termijn trends
Cyclische variatie
Seizoensvariatie
Willekeurige variatie
Een trend is een lange termijn patroon of richting die tentoongesteld wordt door een serie. De duur bedraagt meer dan een jaar.
Bijlage 20.1 bevat een voorbeeld van een lijndiagriam van de populatie in de U.S.
Cyclische variatie is een patroon dat een lange termijn trend beschrijft die zich in het algemeen voordoet gedurende vijf jaar. Cyclische patronen zijn consistent en voorspelbaar en zeldzaam.
Seizoensvariatie refereert naar de cyclussen die zich voordoen over een korte periode en hebben een tijdsduur van minder dan een jaar. De term variatie verwijs naar de systematische patronen die zich voordoen gedurende een maand, een week of een dag.
Willekeurige variatie wordt veroorzaakt door onregelmatige en onvoorspelbare verandeirngen in een tijdsreeks die niet veroorzaakt wordt door andere componenten. Willekeurige variatie bestaat in bijna alle tijdreeksen, maar een van de doelen is om manieren te introduceren om de willekeurige variatie te verminderen.
20.2 gelijkmakende technieken
Een van de makkelijkste manieren om willekeurige variatie te vemrinderen is om de tijdsreeks uit te lijnen. Dit kan worden gedaan aan de hand van twee methoden: het verschuiven van gemiddeldes en exponentiële uitlijning.
Gemiddeldes verschuiven
Een verschuiving van het gemiddelde voor een tijdsperiode is het wiskundig gemiddelde van de warden in die tijdsperiode en dicht daarbij.
Verschuiven van gemiddeldes
Een gelijk aantal perioden kan gebruikt worden om het gemiddelde te verschuiven naar een plaats in de tabel van de gemiddeldes. Een voorbeeld volgt hier:
Wanneer de volgende vier periode gemiddeldes voor een bepaalde tijdsreeks er als volgt uitziet:
Periode | Tijdsreeks |
1 | 15 |
2 | 27 |
3 | 20 |
4 | 14 |
5 | 25 |
6 | 11 |
Het eerste gemiddelde is:
15 + 27 + 20 + 14 = 19.0
4
Doordat deze waarde de tijdpsperiode 1,2,3 en 4 representeert, moet het geplaatst worden tusen periode 2 en 3. Het volgende bewegende gemiddelde is:
27 + 220 + 14 + 25 = 21.5
4
Dit gemiddelde valt tussen de perioden 3 en 4. Het bewegende gemiddelde dat valt tussen peride 4 en 5 is:
20 + 14 + 25 + 11 = 17.5
4
Er bestaan meerdere problemen door het verplaaten van de gemiddeldes tussen tijdsperioden. Het centreren van het gemiddelde corrigeert het probleem. Dit kan door het berekenen van een twee periode gemiddelde van het vier periode gemiddelde. Het gecentreerde bewegende gemiddelde voor periode 3 is:
19.0 + 21.5 = 20.25
2
Het gecentreerde bewegende gemiddelde voor periode 4 is:
21.5 + 17.5 = 19.50
2
De volgende tabel geeft een samenvatting van de resultaten:
Periode | Tijdsreeks | Vier periode bewegende gemiddelde | Vier periode gecentreerde bewegende gemiddelde |
1 | 15 | - | - |
2 | 27 | 19.0 | - |
3 | 20 | 21.5 | 20.25 |
4 | 14 | 17.5 | 19.50 |
5 | 25 | - | - |
6 | 11 | - | - |
Exponentiële uitlijning
Twee nadelen met het bewegende gemiddelde om tijdsreeksen uit te lijnen kunnen aanwezig zijn. De eerste is dat er geen bewegende gemiddeldes zijn voor de eerste en laatste set vna tijdsperioden. Als de tijdsreeks een paar observaties heeft, kunnen ontbrekende waardes een belangrijk verlies van informatie representeren.
Het tweede nadeel is dat de bewegende gemiddeldes de voorgaande tijdsreeksen bij wijze van spreken kunnen ‘vergeten’.
Er bestaat een methode, exponentiële uitlijning die deze problemen oplost. Bijlage 20.2 bevat de formule hiervoor.
20.3 Trends
Om te voorspellen is het noodzakelijk dat er precieze metingen worden gedaan betreffende informatie over tijdsreeksen.
Trend analyse
Een trend kan lineair of niet lineair zijn en kan een heleboel verschillende functionele vormen aannemen. De makkelijkste manier om de lange termijn trend te meten is door middel van een regressie analyse. Hierbij moet de onafhankelijke variabele tijd zijn.
De functie van de formule is verschillend, afhankelijk van het feit of er sprake is van een lineair of niet lineaire trend. In de meeste gevallen wordt het lineaire model gebruikt.
Seizoens analyse
Variatie doet zich voor per seizoen. Dit kan voorkomen binnen een jaar met korte intervallen zoals een maand, een week of een dag. Om dit effect te meten worden seizoensindexen berekend, die berekenen in welke mate de seizoenen van elkaar verschillen.
Een noodzakelijke voorwaarde voor het berekenen van een seizoensindex is een tijdsreeks die lang genoeg is om observaties te doen met betrekking tot de variabele fenomenen in dat seizoen.
Procedure
De volgende procedure wordt gehanteerd voor het berekenen van een seizoensindex:
Verwijderen van het effect van seizoensfactoren en willekeurige variatie met behulp van regressie analyse. De simpele regressielijn wordt berekend.
Voor elke tijdsperiode wordt een ratio berekend. Deze ratio vermindert de trend variatie.
Voor elk type seizoen wordt een gemiddelde ratio berekend. Dit proces verwijdert de willekeurige variatie.
Aanpassing van de gemiddeldes om het gemiddelde van alle seizoenen op 1 te krijgen.
Tijdseries ontdoen van seizoenseffecten
Seizoensvariatie verminderen is het doel van het toepassen van seizoensindexen. Dit proces wordt deseasonalizing genoemd en het resultaat wordt seasonally adjusted time series genoemd.
Deze methode maakt het mogelijk om op een makkelijke manier een vergelijking te maken van een tijdserie van seizoenen. De werkloosheid kan variueren naargelang het seizoen. Tijdens de wintermaanden neemt de werkloosheid gewoonlijk toe. De werkloosheid daalt durende de zomer.
De aangepaste werkloosheidspercentages maakt het mogelijk voor economen om te bepalen of werkloosheid toegeneomen is of afgenomen over de voorgaande maanden. Dit proces is simpel: de tijdsreeks wordt gedeeld door de seizoensindex.
20.4 Introductie over voorspelling
Veel verschillende voorspellingsmethoden zijn beschikbaar voor een onderzoeker. Een factor die meegenomen moet worden in de beslissing is de component die de tijdsreeks bevat.
Een manier om een keuze te maken voor deze component is de mean absolute deviation (MAD) en de sum of squares for forecast errors (SSE).
Bijlage 20.3 bevat de formule voor de MAD en de SSE.
MAD maakt de absolute verschillen gemiddeld tussen de actuele en de voorspelde waarden. SSE is de som van de verschillen in het kwadraat. In het geval dat het belangrijk is om grote fouten te voorkomen, wordt SSE gebruikt, omdat het grote afwijkingen meer tegengaat dan MAD.
Het is waarschijnlijk het beste om een paar observaties te gebruiken van de tijdsreek om verschillende voorspellende modellen op te stellen.
20.5 Voorspellende modellen
voorspellen met seizoensindexen
Las de tijdsreeks bestaat uit seizoensvariatie en een lange termijn trend, kunnen seizoensindexen worden gebruikt en de regressievergelijking, om een voorspelling te maken.
Bijlage 20.4 bevat de formule die het mogelijk maakt te voorspellen.
Autoregressief model
Het bestaan van een sterke correlatie met geeft aan dat het model verkeerd begrepen is en verbeterd moet worden. Ook geeft dit een kans een andere voorspellingstechniek te ontwikkelen. Als er geen duidelijke trend is, is het autoregressieve model de beste optie. Zie bijlage 20.5 voor de formule.
Hoofdstuk 21. Statistische processen beheren
Operatie managers zijn verantwoordelijk voor het ontwikkelen en behouden van de productieprocessen die kwaliteit en diensten leveren. Het doel is om methoden, materialen en technieken te selecteren die een combinatie te leveren voor een productieproces met de kleinste variatie tegen een redelijke prijs.
Tijdens en proces is het noodzakelijk om te blijven controleren en alles in de gaten te houden. Dit wordt gedaan om ervoor te zrogen dat alles naar wens blijft functioneren. De statistische methode die hiervoor wordt gebruikt zijn statistic process control (SPC).
Er zijn twee algemene benaderingen om de kwaliteit van het management te verbeteren. De eerste benadering produceert de producten en bij de laatste fase van het productieproces wordt het goed onderzocht om te bepalen of het aan de eisen voldoet. Zo niet, dan wordt het goed hersteld of weggegooid. Deze benadering heeft enkele nadelen: het weggooien van goederen brengt kosten met zich mee.
Daarnaast is er een prevention approach. Deze benadering voorkomt schade door het opstellen van hypotheses over het productieproces. In plaats van de goederen te inspecteren, wordt het productieproces zelf geïnspecteerd om te ebapelen waar de niet kwalificerende goederen worden geproduceerd. Dit maakt het mogelijk het proces te corrigeren voordat fouten zich voordoen in de geproduceerde producten.
21.1 Proces variatie
Alle productieprocessen brengen variatie met zich mee. Geen enkel product kan exact hetzelfde zijn. Er bestaan twee soorten variatie: kans en toerekenbare variatie.
Kans of gewone variatie worden veroorzaakt door een aantal willekeurige gebeurtenissen die deel uitmaken van het productieproces en kunnen in het algemeen geëlimineerd worden zonder het productieproces te veranderen.
Toerekenbare of speciale variatie worden veroorzaakt door specifieke gebeurtenissen of factoren die tijdelijk zijn. Deze factoren kunnen meestal wel geëlmineerd worden.
Wanneer alles naar wens gaat en de situatie onder controle is, is er niks aan de hand. Toch kan de situatie zich voordoen dat het proces niet onder controle is. De voglende voorbeelden zijn de meest voorkomende wijzigingen:
Level shift. Dit is een verandering in het gemiddelde van de verdeling van het proces. Toerekenbare oorzaken op dit gebied zijn: instorting van de machine, nieuwe machine of een verandering in het milieu.
Instabiliteit. Deze benaming wordt gebruikt voor het proces waarbij de standaardafwijking toeneemt. Dit kan veroorzaakt worden door een machine die ondehroud nodig heeft of defect is.
Trend. Als er een langzama maar zekere verschuiving plaatsvindt van de verdeling van het gemiddelde, dan ontstaat er een trend. Dit is meestal het resultaat van onregelmatig onderhoud, opgehoopt vuil of instabiele onderdelen.
Cyclus. Dit is een herhaalde serie van kleine observaties die gevolgd worden door grote observaties. Toerekenbare oorzaken van dit fenomeen zijn veranderingen in het mileu of uitgeputte onderdelen.
21.2 Controle
Een controle grafiek is het plotten van de statistieken gedurende de tijd. Een x-chart is het plotten vans een serie steekproefgemiddeldes die zich gedurende een periode hebben voorgedaan. Het bovenste limiet dat boven het hoogste punt van de lijn ligt, wordt upper control limit genoemd. Het laagste punt wordt lower cotrol limit genoemd. Als de steekproeven zijn uitgevoerd en de statistieken worden getoond, kan geconcludeerd wroden dat het proces onder controle is wanneer alle punten willekeurig verdeeld zijn tussen de limieten.
De controle limieten worden gedefiniëerd als in bijlage 21.1.
Bijlage 21.2 bevat een afbeelding met een controle grafiek.
Nadat de grafiek is getekend en de controle limieten, kunnen de gemiddeldes worden geplot. Dezelfde theorie als by het testen van hypotheses wordt in deze methode gebruikt. De volgende voorbeeldhypotheses zijn in het algemeen bij een onderzoek van toepassing:
H0: het proces is onder controle
H1: het proces is niet onder controle
Wanneer de verdeling van het proces veranderd is en het proces niet meer onder controle is komen de steekproefgemiddeldes boven de limieten uit. In dat geval kan geconcludeerd worden dat de procesverdeling veranderd is. De variatie die teogerekend kan worden aan het proces moet in dat geval worden aangepast.
Bijlage 21.3 bevat een voorbeeld van een controle grafiek waarbij het proces niet onder controle is.
Steekproefgrootte
Bij het opstellen van een controle grafiek moet er een steekproefgrootte worden geselecteerd en een frequentie.
De operating characteristic curve (OC) geeft de kansen weer dat er fouten in de populatiegemiddeldes voorkomen.
Wanneer een productieproces onder controle is, zijn het gemiddelde en de standaardafwijking variabel. Voor elke waarde van alpha en n worden de kansen berekend dat er een fot optreedt. De kans op een error is de kans dat de grafiek x-chart niet in staat is om een verschuiving op te merken.
Bijlage 21.4 bevat een figuur waarin de OC curve is weergegeven voor n= 10, 15, 20, en 25.
21.3 Controle grafieken voor variabelen
Er zijn meerdere manieren om te beoordelen of een verandering in het de proces verdeling zich heeft voorgedaan wanneer de data interval data zijn. Om te bepalen o de gemiddeldes veranderd zijn, wordt de x-chart opgesteld. Om te bepalen of de standaardafwijking van het verdelingsproces is veranderd, worden de S-chart (staat voor standaarddeviatie) en R-chart (staat voor range) gebruikt.
X-chart
Het is niet realistisch om te geloven dat het gemiddelde en de standaarddeviatie van een procesverdeling bekend zijn. Om de x-chart op te stellen, is het daarom nodig om een schatting te maken van de relevante parameters in de data.
Eeerst worden steekproeven genomen wanneer het proces onder controle is. De steekproefgrootte moet liggen tussen de 2 en 25. Dan kan het gemiddelde worden berekend en de standaarddeviatie. De schatter van het gemiddelde en de verdeling van het gemiddelde van de steekproefgemiddeldes wordt berekend volgens bijlage 21.5.
Om een schatting te maken van de standaarddeviatie van een procesverdeling, wordt de steekproef variantie berekend. Daarna kan de ‘pooled’ standaard deviatie worden berekend.
Bijlage 21.6 bevat de formule voor de berekening van S.
Bij het bepalen van de limieten zijn mu en sigma onbekend. Daarom moet de steekproefdata worden gebruikt om een schatting te maken van deze variabelen.
Bijlage 21.7 bevat de formule voor het berekenen en schatten van de limieten en de middenlijn.
Bepalen of het proces niet onder controle is
Wanneer hypotheses getest worden, wordt gebruik gemaakt van statistiek om een beslissing te nemen. In de x-chart wordt deze beslissing gemaakt na het plotten van de 25 gemiddeldes. Als resultaat kan er een toets worden ontwikkeld die gebaseerd is op de seekproefgemiddeldes die geplot zijn.
Om een omschrijving te geven van de gemiddeldes is het noodzakelijk de x-chart te verdelen tussen controle limieten in zes zones.
Bijlage 21.8 bevat een afbeelding van zo een verdeling binnen een chart.
De C zones representeren het gedeelte waarbinnen een enkele standardafwijking vanaf de middenlijn plaatsvindt. De B zones zijn de gebieden tussen een of twee standaardafwijkingen van de middenlijn. De ruimtes tussen twee en dree standaardafwijkingen vanaf de middenlijn worden A zones genoemd.
Er bestaan verschillende toetsen die kunnen worden toegepast. Hieronder volgen acht toetsen:
Een punt verder dan zone A. Dit is de methode die eerder aan de orde is gekomen, waarbij geconcludeerd wordt dat het proces niet onder controle is als er een punt buiten de limieten valt.
Negen punten in een rij zijn in zone C of aan dezelfde kant van de middenlijn.
Zes toenemende of afnemende punten in een rij.
Veertien punten in een rij die omhoog en omlaag bewegen.
Twee van de drie punten in een rij zijn in zone A of verder (aan dezelfde kant van de middenlijn).
Vier van de vijf punten in een rij zijn in zone B of verder (aan dezelfde kant van de middenlijn).
Vijftien punten in een rij zijn in zone C (aan beide kanten van de middenlijn).
Acht punten in een rij zijn verder dan zone C (aan beide kanten van de middenlijn).
Bijlage 21.9 bevat een afbeelding van de hiervoor beschreven testen. Elke afbeelding geeft een proces weer dat niet onder controle is.
S-chart
De S chart geeft een weergave van de standaard deviaties om te bepalen of de standaard deviatie van de procesverdeling is veranderd. Deze grafiek lijkt op die vn de x-chart: de S chart geeft een middenlijn weer en controle limieten. De formules voor deze bovenste en onderste limieten zijn echter ingewikkelder dan die voor de x-chart.Het gevolg is dt de formules niet worden weergegeveven. Dit wordt met behulp van de computer gedaan.
Voor- en nadelen van de S chart
Bij het analyseren van S charts kan geconcludeerd worden dat de procesverdeling veranderd is als de punten buiten de controle limieten worden geobserveerd. Putnen boven de controle limieten geven aan dat de standaard deviatie van het proces is toegenomen.
In gevallen dat de standaard deviatie is afgenomen, is dat voordelig, omdat dit aangeeft dat de afwijkingen verminderd zijn en dichter bij de middenlijn komen te liggen. De manager moet onderzoeken in welke gevallen de standaard afwijkingen van de steekproeven een grote of kleine range hebben en bepalen welke factoren leiden tot zo een resultaat. Het doel is om te bepalen of permanente verbeteringen in het productieproces kunnen worden gemaakt.
Het gebruik van x- en S charts
Deze twee charts moeten samen getekend worden en beoordeeld worden. De reden hiervoor is dat de x-chart gebruik maakt van de S chart om de bovenste limieten te berekenen. Dit heeft als gevolg dat in de situatie dat de S chart aangeeft dat het proces niet onder controle is, de waarde van S niet zal leiden tot een goede schatting van de standaard afwijking van de procesverdeling.
De gewoonlijke procedure is om eerst de S chart te tekenen. Als dan blijkt dat het proces onder controle is, dan wordt de x-chart getekend. Als deze ook aangeeft dat het proces onder controle is, dan kunnen beide charts gebruikt worden om de controle te onderhouden en het proces te testen.
Wanneer een van de charts aangeeft dat het proces niet onder controle is, terwijl de andere aangeeft dat dit wel zo is, dan moet het probleem opgespoord worden en gerepareerd worden. Daarna kunnen de charts opnieuw worden opgesteld met nieuwe data.
Controleren van het productieproces
Wanneer het proces onder controle is, kunnen de controle lmieten gebruikt worden en de middenlijn om het proces in de toekomst in goede conditie te houden. Alle toekomstige statistieken kunnen geplot worden met behulp van een controle grafiek.
21.4 Controle grafieken
In dit gedeelte wordt een p-chart gebruikt om de proportie defecte goederen te bepalen in een steekproef.
P-chart
Er wordt een steekproef genomen van minimaal 25 tijdsperioden. Voor elke steekproef wordt het aantal defecte goederen berekend. Daarna wordt het gemiddelde berekend volgens bijlage 21.10.
Bijlage 21.11 bevat de formules voor de limieten en de middenlijn bij een p-chart.
Hoofdstuk 22. Beslissingsanalyse
Het doel van dit hoofdstuk is beslissingen maken. Ten eerste wordt er een techniek gebruikt om hypotheses te testen door het afwijzen of niet afwijzen van hypotheses die over een bepaalde populatie gaan. Er wordt gekozen voor een alternatief van verschillende mogelijke keuzes. Ten tweede wordt een beslissing gebaseerd op de beschikbare statistische data.
Bij beslissingsanalyse kan de statistieke data afwezig zijn of de beslissing is deels onafhankelijk van deze data. De beslissingen die worden gemaakt zijn van directe invloed op de winsten en verliezen.
22.1 Beslissingsproblemen
Wanneer een persoon 1 miljoen wilt investeren in een jaar moeten verschillende mogelijkheden worden geanalyseerd. De keuzen kunnen beperkt worden tot drie alternatieven. Deze alternatieven worden alternatieve handelingen genoemd:
A1: investeren in een verzekerd inkomen op een certificeaat van 10%
A2:investeren in een obligatie met een couponwaarde van 8%
A3:: investeren in een divers portfolio van aandelen
Als de uitbetalingen van de laatste twee opties afhankelijk zijn van een aantal factoren, voornamelijk rente, dan zijn er drie mogelijkheden van toepassing. Deze mogelijkheden worden states of nature genoemd en zijn als volgt
S1: de rente neemt toe
S2: de rente blijft gelijk
S3: de rente daalt
Na verdere analyse is het mogelijk te bepalen welke hoeveelheid winst gemakat kan worden voor elke mogelijke combinatie. De uitbetaling van de eerste mogelijkheid bljft daarbij gelijk, wnt die is niet afhankelijk van de rentestand.
Met de voorgaande informatie kan een uitbetalingstabel opgesteld worden. Bijlage 22.1 bevat deze tabel voor de voorgaande casus.
Een andere manier om de gevolgen van een handeling uit te drukken is het meten van de kans op verlies. Een opportunity loss is het verschil tussen wat de uitbetaling is bij de keus die de investeerder heeft gemaakt en het bedrag dat ontvangen had kunnen worden indien de best gekozen optie was uitgevoerd.
Besslissings stamboom
De meeste problemen kunnen worden opgelost door alternatieve keuzes voor te stellen met een uitbetalingstabel. Soms moet echter gekozen worden tussen gevolgen van keuzes door de beslisser. In dat geval is het niet handig om een uitbetalingstabel op te stellen. In zo een situatie wordt een beslissings stamboom opgesteld om het juiste gewenste gevolg te kiezen.
In een beslissings stamboom worden alle stadia gerepresenteerd van een keuze. Het begin stadium en het gevolg kunnen in een overzicht worden weergegeven. In een beslissingsboom kan een onderscheid gemaakt worden tussen handelingen en gebeurtenissen. Een vierkantje representeert een punt waar een beslissing wordt gemaakt. Een punt geeft een stadium aan waar een natuurlijk gevolg zich voordoet.
Bijlage 22.2 bevat een figuur van zo een stamboom, waarbij een investeerder voor een keuze staat om te investeren in drie mogelijkheden. Elk van die mogelijkheden hebben andere gevolgen en kansen op uitbetalingen.
De stamboom begint met een vierkantje. Dit is het punt waar een keuze wordt gemaakt tussen de eerste, tweede en derde a. De aftakkingen bij elke beslissingen geven de mogelijkheden binnen een keus aan. Dit is afhankelijk van de rentestand: deze kan omhoog gaan, omlaag gaan of gelijk blijven. Aan het einde van elke keus staat de uitbetaling.
Het opstellen van zo een stamboom geeft allene het probleem weer. Er zijn geen pogingen gedaan tot het nemen van een beslissingen.
Verwachte beslissingen
In veel beslissingen is het mogelijk om kansen toe te rekenen aan een mogelijkheid. De wijze van beslissing is afhankelijk van de soort beslissing die aan de orde is. Een beslissing voor een poker spel is anders dan een beslissing betreffende een machine die kapot is gegaan.
In de meeste gevallen kunnen geen formele regels of technieken worden toegepast bij het maken van een beslissing. In die gevalen moeten de kansen subjectief worden berekend. De kansen worden berekend op basis van ervaring en kennis.
22.2 verkrijgen en verwerken van extra informatie
In dit gedeelte worden methoden besproken die over extra informatie in het beslissingsproces gaan. Deze informatie heeft een waarde, maar ook kosten. Informatie kan verkregen worden van vele bronnen, maar hier moet wel voor betaald worden in de meeste gevallen.
Er kan een berekening worden gemaakt van de maximale prijs die een beslisser bereid is te betalen voor de informatie betreffende een bepaalde beslissing. Dit wordt de expected payoff with perfect information (EPPI) genoemd.
Als van te voren bekend is welke gevolgen er zijn dan kunnen beslissingen makkelijker gemaakt worden. Dit geldt bijvoorbeeld voor het voorgaande vorbeeld waarbij de rentestand onbekend was. Stel dat bekend is dat de rentestand gelijk blijft. Dan kan bij de eindresultaten gekeken worden en de hoogste uitkomst kan worden gekozen. Er is geen risico meer aan de beslissing, want de informatie waarover twijfel bestaat , is nu bekend.
Beslissingen maken met extra informatie
Wanneer de investeerder de beslissingsmogelijkheden wilt verbeteren, kan er gebruik gemaakt worden van verschillende mogelijkheden. Management consultants zijn een goede optie. Deze maken een voorspelling van de economische toestand en kunnen bijvoorbeeld de rentepercentages voorspellen voor het komende jaar.
De consultants verlenen al diensten sinds jaren aan mensen die moeilijkheden ondervinden bij het nemen van een beslissing. Er kunnen meerdere voorspellingen gedaan worden door deze consultants. Ook van deze voorspellingen kan weer een tabel worden gemaakt die de kansen weergeeft dat elke voorspelling uitkomt.
De wijze waarop de beslisser gebruik kan maken van de voorspellingen van de consultant, is door ervan uit te gaan dat de voorspellinge uitkomen en aan de hand daarvan een keus te maken.
Hoofdstuk 23. Conclusie
Deze samenvatting heeft verschillende statistische conepten behandeld en wijzen waarop problemen kunnen worden opgelost of beslissingen kunnen worden gemaakt. Elke toets heeft een andere betrouwbaarheid en uitkomsten kunnen verschillen. Daarnaast is niet altijd zeker of de berekende waardes betrouwbaar genoeg zijn. Dit heeft te maken met de zekerheidsintervallen en het significantieniveau.
Er zijn twaalf statistische concepten die belangrijk zijn en gedurende je leven terug blijven komen. Het is belangrijk aandacht te besteden aan de volgende concepten:
Statistische technieken zijn processen die data converteren in informatie. Beschrijvende technieken beschrijven en vatten samen. Concluderende technieken maken het mogelijk een schatting te maken en conclusies te trekken over populaties van steekproeven.
Er is een groot aantal technieken nodig omdat er verschillende objectieve soorten data bestaat. Er bestaan drie typen data: interval (echte getallen), nominaal (categorieën) en ordinaal (rangordes). Elke combinatie van data vereist een specifieke techniek.
Data wordt verzameld door steekproeven. De validiteit van een statistische uitkomst is afhankelijk van de betrouwbaarheid van de steekproef.
De steekproef verdeling is de bron van het statistisch bewijs. De zekerheidsinterval schatter en de test statistieken worden afgeleid van de steekproef verdeling. Alle conclusies over de kansen zijn gebaseerd op de steekproefverdeling.
Alle toetsen van hypotheses worden tegelijkertijd uitgevoerd. Bij de veronderstelling dat de nulhypothese waar is, wordt de waarde van de statistieke toets berekend. Als het verschil tussen wat geobserveerd is en berekend is, groot is, dan wordt de nulhypothese verworpen.
Bij het testen van elke hypothese zijn er twee mogelijke fouten: type I en type II. De relatie tussen de kansen van dee fouten helpen bij de beslissing voor het opstellen van een standaard. Als de standaard hoog ligt, waardoor de kans op een type I fout klein is, dan neemt de kans op een fout vna type II toe. Een prcedure die ontworpen is om de kans op een type II fout te elimineren heeft een grote kans op een type I fout.
De exactheid van een zekerheidsinterval kan verbeterd worden en de kans op een type II fout verminderen door de steekproefgrootte uit te breiden. Meer data betekent meer informatie en dat resulteert in een kleiner interval en lagere kansen voor het maken van fouten. Dit leidt uiteindelijk dan ook tot betere beslissingen.
De steekproefverdeling die gebruikt wordt vor itnerval data is de student t en de F. Dee verdelingen zijn gerelateerd zodat verschillende technieken voor interval data met elkaar in verband staan.
Bij het analyseren van interval data wordt er geprobeerd zo veel mgoelijk de variatie te verklaren als mogelijk.
De technieken die voor nominale data worden gebruikt, vereisen dat het aantal keren dat een categorie zicht voordoet, wordt geteld.
De technieken die gebruikt worden voor ordinale data zijn gebaseerd op een rangorde procedure. Door de vereisten voor het gebruik van zonder parameter tehcnieken, worden deze vaak gebruikt omdat ze minder streng zijn.
Data die wordt verkregen door middel van experimenten wodt beoordeeld. Dit kan door middel van observatie. Observerende data kan leiden tot tegengestelde interpretaties.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
3231 | 1 |
Add new contribution