Aantekeningen hoorcollege 1: MLR - Universiteit Utrecht (2023-2024)

Hoorcollege 1

Frequentist vs bayesian statistics

Frequentist framework:

p-waarden, BI’s, effect sizes en power analyses

Bayesian framework:

Wordt populairder
We testen geen H0, we kunnen ook alternatieve hypotheses testen.
Het gemiddelde benaderen kunnen we op een frequentist of bayesian manier doen.
We kunnen ook een hypothese testen: Nederlanders zijn langer dan Belgen.

Likelihood function: wat is de meest likeable gemiddelde waarde.

Je hebt een normaalverdeling:

Je krijgt een gemiddelde. De likelihood is de waarschijnlijkheid van de data, gegeven het gemiddelde van de populatie.
Data helemaal links is dus erg unlikely, gegeven het gemiddelde van de populatie.
Bij de piek is het erg likely (waarschijnlijk).
Als we nog verder naar rechts gaan, dan daalt de likelihood weer. Likelihood is kans vgm.

Bayesian approach

Bij bayesian approach kan je tijdens het proces nog informatie toevoegen. Je kan je kennis updaten. Dat geeft de posterior distribution for u.
Nadeel is: de resultaten zijn afhankelijk van de choice of prior. Dus welke data je prior toevoegt vgm.

Priors in de data

Je kan van verschillende priors uitgaan
Bij de prior: we weten helemaal niks.
De data die we dan toevoegen zorgt voor een verwachting. DIt is bij bayesian statistics. We gebruiken de prior en de data.
Onze prior was so uninformed. Daarom lijkt de posterior bijna compleet op de data. Dit gebeurt vaak bij frequentic statistics. Daar gebruiken we geen prior.
De data en de prior zorgen dan voor een andere posterior. De posterior volgt niet gewoon de data. De posterior is een stuk steiler. Dit gebeurt er dus als je al iets weet over de data: de prior. Dit is dus bayesian statistics.
Als we maar een beetje data hebben, heeft de data niet echt invloed. Als we erg veel data hebben, overruled dat de prior.
De mode is de hoogste waarschijnlijkheid. Dus de hoogste waarde, maar dit hoeft niet het gemiddelde te zijn

95-betrouwbaarheidsinterval

Met 95% zekerheid weten we dat de echte populatie in dat interval ligt.

The same data can give different results! Ligt aan je sampling plan

Frequentic statistics:

we focussen op de H0.
Hoe waarschijnlijk zijn deze data, als H0 waar is. Dus gegeven H0.
Deze twee probabilities zijn heel erg verschillend. Ze zijn niet hetzelfde.

Bayesian probability:

data = person is dead
H (hypothesis) = shark has bitten person’s head off

Bayesian probability:

Lage probability. hoofd is eraf gebeten, gegeven het persoon is dood.
Hele kleine kans dat als iemand dood is, dat dit gebeurd is door een haai

Frequentist probability:

Person is dead gegeven dat haai je hoofd eraf heeft gebeten. Die kans is groot. Zonder hoofd ben je zegmaar dood.

PMP is the probability of the hypothesis after observing the data. Dit is afhankelijk van de data en the prior.

Bayesian:

De BF 10 staat voor one zero.
De waarschijnlijk de probability voor H1 over H0.
BF10 = 10
Dan is de support voor H1 10x sterker dan voor H0.
Als we onder 1 komen, dan is H0 waarschijnlijk sterker dan H1.
Bayes Factor (BF) is geen posterior. Dus het is anders dan een PMP.
Maar we gebruiken de BF om de PMP te berekenen.
PMP zijn ook relative probabilities. We kunnen ze dus vergelijken.
We updaten de prior probabilities met de BF en dan krijg je PMP’s.

Frequentist:

Hoe vaak zal iets gebeuren. Dus als je meer thee aanbiedt (thee-experiment voorbeeld uit het college), hoeveel heeft ze er goed.

Bayesian:

Gebaseerd op belief. Wat geloven we vooraf (prior probability) en op basis van de data (achteraf). Dat is de posterior probability.

Bij frequentist:

als je het experiment 1x uitvoert, dan weet je niet of het in die 95% valt of in de 5% fout.
Bayesian 95%-BI zijn meer logisch en direct.

Nu gaan we het hebben over multiple linear regression (MLR):

Linear regression

De relatie tussen twee variabelen vastleggen met een lineaire relatie. Je hebt twee variabelen: 1 op de x-as en 1 op de y-as. We willen een rechte lijn door de wolk met metingen.
Why hat: dakje op de y.
beta zero is de intercept. Waar de lijn de y-as kruist.
beta one is de slope, hoe stijl de lijn is.
De blauwe lijn vangt niet alle data-punten. Hij loopt er een beetje tussendoor.
Er is een error die erbij in wordt genomen. Dus als je een x-waarde hebt, kom je uit op een plek op de lijn. Maar het echte punt ligt iets boven de lijn, zoals je ziet in het voorbeeld. Die rode lijn wordt dus aangegeven als de error die er nog bij komt.
e is een residual.

Bij MLR hebben we meer predictors.

Bij 3 variabelen heb je dan een 3 dimensionaal model. We gaat ervan uit dat hoever de punten liggen van lijn, dat dat gelijk is. Dus het gemiddelde van de punten om de regressielijn is 0.

Why hat

Why hat is de model dat we hebben
Dan is de echte y-waarde: de why hat + de prediction error.
Bij elk model hebben we assumptions.

Leer de model assumptions voor het uitvoeren van een MLR!

Soms zijn er goede oplossingen van een assumption overschrijden. Bijvoorbeeld door het verwijderen van een uitschieter.
In real life altijd de assumptions checken. Bij de toets mag je ervan uitgaan dat dit al gedaan is.

Interval / ratio variables:

Grade on scale: 0-10. Dit is
Age in years: ratio
Gender is gecodeerd als 1 = man en 2 = vrouw
Dit is categorische variabele.
Categorische variabele kan alsnog gebruikt worden in MLR dmv dummy variables.
Je recodeert man of vrouw dan naar waarde 1 en 0.

Parameters en predictors

Estimate the paramters of the models: dat zijn de coefficenten, dus de B-waarden.
We testen of de parameters niet gelijk zijn aan 0. Dit doen we door NHST. dus H0 = de parameter is 0.
Dit wordt ook gedaan met de R2, dus om te kijken of we iets van variantie verklaren met dit model. Dit doen we ook met de coefficienten. Deze moeten wel verschil maken, dus ze moeten een waarde hebben die niet gelijk is aan 0.
De predictors moeten namelijk wel een invloed hebben.

Bij bayesian statistics doen het anders.

R2 is hoeveel variantie verklaart het hele model. 0.135 is 13,5% van de variantie verklaard is door het hele model. We verklaren niet de residuals, die wijken erg af van onze regressielijn.
De normale R, dat is de multiple correlation coefficient. Dit is de correlatie tussen de geobserveerde y-waarde die we hebben en de why hat tussen ons model. Snap het niet.
Adjusted R2 is estimate of hoeveel variantie we buiten ons model kunnen verklaren. Dit is dus generaliseerbaar. Gebaseerd op de sample size. Hoe kleiner de sample size, hoe moeilijker het is dit terug te generaliseren naar de populatie.
Adjusted R2 dit is dus altijd een kleinere waarde dan R2.
Gigantische sample is beter te generaliseren en Adjusted R2 is dan ook groter.
Hoe meer predictors je hebt, hoe meer variantie je verklaart. Maar je pakt ook random variaties die misschien helemaal niet in de populatie aanwezig zijn. Dus meer predictors zorgen voor een lagere Adjusted R2. Simpeler model is beter te generaliseren naar de populatie.
R2 gelijk aan 0 is de nulhypohtese. Dit moet significant verschillen van 0.
De p-waarde is significant en dus verklaart het model at least wat variantie.

Coefficients in de regression equation

Unstandardized coefficients zijn onze B-waarden.
We hebben ook standardized coefficients. Deze gebruik je om te kijken welke predictor de meeste invloed heeft. Age en education staan op verschillende schalen. Met de standardized coefficients kan je ze goed vergelijken met elkaar.
Dan heb je de p-waarden per predictor. De nulhypothese is dat de coefficient gelijk is aan 0. Nou ze zijn alle twee significant. Dat betekent dus dat de predictoren invloed hebben en niet gelijk zijn aan 0. Ze doen er beiden toe.

Dan gaan we nu naar bayesian analysis: MLR.

Eerst willen we het hele model evalueren.
Je ziet links de verschillende modellen. De null model is waar age en education 0 invloed heeft.
Daaronder is het model met age en education, deze hadden we ook bij de frequentic analysis.
Daaronder hebben we het model met alleen education en een model met alleen age.
In dit geval zijn er drie mogelijkheden voor combinaties voor modellen. 1 model voor beiden en beiden 1 individueel model voor elke predictor.

Output interpreteren

P(M) is de prior probability van dit model.
P(M/data) posterior probability van het model gegeven de data.
Daarna zien we de bayes factors.
We vergelijken het model van age + education met het null model. Daar is de BF op gebaseerd hier.
BF10 is ons model 1 vegeleken met model 0: null model. Ons model wordt dus 28x meer gesupport dan het null model.
Dit is vergelijkbaar met de coefficient tabel bij de frequentist model.
Elke predictor zien we mean en SD. Dit gaat over de posterior distribution.
Het vertelt ook de 95%-BI. Er is een 95% kans dat de ware coefficient waarde tussen deze twee grenzen ligt.
Uninformative bayesian prior dan lijkt het heel erg op de frequentist model.
Als je meer informatie hebt vooraf, dan krijg je een andere uitikosmt dan het frequentist model.

BF inclusion is

Als we age toevoegen, dan is het model 5.467x beter.
Deze tabel refereert naar een gemiddelde van alle modellen hierboven genoemd. Bayesian statistic gebruikt namelijk ook de predictors los als model.

Dan hebben we hierarchical MLR:

Hier willen we twee modellen vergelijken

Eerst frequentist analysis.

We hebben model 0 en model 1.
We hebben R2 Change.
Dit is de verandering in R2, als we de twee predictors toevoegen. Die 0.135 is de onveranderde R2. Deze hadden we al.
Als we de predictors toevoegen veranderd de R2 Change naar 0.127.
Als je naar de p-waarde kijkt, zie je dat de verandering significant is. Dus hij verandert volgens mij 12,7% variantie meer.
Hij verklaart dus meer variantie dan het eerste model.

Coefficient tabel.

We hebben nu een tweede rij erbij. Nu is spouse support de belangrijkste predictor.
Child support en age zijn niet significant zie je in dit model.
MAAR: in het eerste model is age nog wel een significante predictor. Hoe is dat mogelijk?
Al deze coefficienten zijn afhankelijk van het model waarin ze staan.
Een ander model zorgt dus voor andere significantie per coefficient.
Age kan nu overlappen met een van de nieuwe predictor. En is daardoor nu niet meer relevant.

Bij frequentist manier kies je zelf welke predictors je erin doet: method enter.

Stepwise method is omstebeurt kijken wat welke predictor doet. DIt is exploration. Dit is gebaseerd op kans. Hier zijn vals-positieve uitkomsten veel voorkomend.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of topic:

Statistics and Data analysis Methods

Universiteit Utrecht en studieverenigingen

This content is used in:

Studiehulp ARMS - UU (2023-2024)

Going abroad?

Insure your way around the world

International expat insurances

Travel & Worldsupporter insurances (NL)

Study with summaries

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

Search a summary

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

Spotlight: topics

Check the related and most recent topics and summaries:

Institutions, jobs and organizations:

Universiteit Utrecht en studieverenigingen

Samenvattingen voor psychologie in Utrecht via Alcmaeon en JoHo

Activities abroad, study fields and working areas:

Statistics and Data analysis Methods

This content is also used in .....

Studiehulp ARMS - UU (2023-2024)

Hallo allemaal,

In deze bundel staat een deel van de stof voor het vak ARMS aan de Universiteit Utrecht.

Let op: Statistiek is heel veel oefenen. Dit is goed te doen in Grasple, de oefenmodule van de Universiteit Utrecht voor o.a. ARMS. Veel colleges gaan over

...

Aantekeningen hoorcollege 1: MLR - Universiteit Utrecht (2023-2024)

Aantekeningen hoorcollege 2: MLR - Universiteit Utrecht (2023-2024)

Aantekeningen Seminar 1 - Universiteit Utrecht (2023-2024)

Aantekeningen Seminar 2 - Universiteit Utrecht (2023-2024)

Aantekeningen Seminar 3 - Universiteit Utrecht (2023-2024)

Read more about Studiehulp ARMS - UU (2023-2024)
745 reads

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
How and why use WorldSupporter.org for your summaries and study assistance?
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
Quicklinks to fields of study for summaries and study assistance

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

How and why use WorldSupporter.org for your summaries and study assistance?

For free use of many of the summaries and study aids provided or collected by your fellow students.
For free use of many of the lecture and study group notes, exam questions and practice questions.
For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
For compiling your own materials and contributions with relevant study help
For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Use the summaries home pages for your study or field of study
Use the check and search pages for summaries and study aids by field of study, subject or faculty
Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
Check or follow authors or other WorldSupporters
Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports

Main study fields NL:

Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden

WorldSupporter: what are the features, functionalities and rules on WorldSupporter.org?

WorldSupporter NL: hoe vind je samenvattingen en studiehulp op WorldSupporter.org en JoHo.org

Summaries and Study Assistance - Start

Follow the author: Hugo

Hugo

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics

977