Deze samenvatting is gebaseerd op een herziene tekst en verkorte vertaling van hoofdstuk 10 uit het boek Toegepaste data-analyse. Technieken voor niet-experimenteel onderzoek in de sociale wetenschappen (van de Heus, van der Leeden, Gazendam, 1995).
Psychometrisch onderzoek wordt uitgevoerd in de hoop om betekenisvolle uitspraken te doen over onszelf en anderen. Er zijn hierbij twee soorten oordelen die we kunnen maken. In de eerste plaats zijn er Dimensionale oordelen, waarbij gekeken wordt naar onze positie op een bepaalde dimensie. Daarnaast kunnen we ook classificeren, oftewel vaststellen tot welke categorie we behoren.
Van dimensies naar classificaties
Er zijn verschillende manieren waarop we mensen in categorieën kunnen indelen. De algemene procedure om van een dimensionaal oordeel naar classificatie begint met een onderzoeksgroep Er is een sample nodig waarbij voor elk individu scores bekend zijn op de dimensionale oordelen en de individuele classificatie. Binnen zo’n sample probeert men op basis van de dimensionale oordelen vast te stellen tot welke groep individuen behoren. Hoewel we de classificatie eigenlijk al weten, zorgt dit ervoor dat we (1) een voorspellingsregel hebben die we kunnen gebruiken voor nieuwe individuen en (2) dat we informatie hebben over hoe goed de voorspellingsregel werkt. Als we vervolgens vinden dat de voorspellingsregel goed genoeg werkt, kunnen we het gebruiken om nieuwe individuen te classificeren waarvan we nog niet weten tot welke groep ze behoren.
Complicaties
Hoewel het proces op deze manier eenvoudig klinkt, werkt het in de praktijk niet zo vanzelfsprekend. Zo twijfelen we vaak aan de betrouwbaarheid en validiteit, maar baseren we onze voorspellingsregel hier toch op. Ook zijn er verschillende criteria om vast te stellen hoe accuraat een voorspelling is, die elkaar kunnen tegenspreken. Bovendien kan het toepassen van een voorspellingsregel op een nieuwe groep tot onverwachte resultaten leiden.
Classificatie: het basisproces
De makkelijkste manier om the classificeren op basis van een dimensionaal oordeel is voor twee groepen op slechts een dimensie. We kunnen verschillende dingen doen met deze data. In de eerste plaats kunnen we een t-test uitvoeren om te zien of er een significant verschil is tussen de gemiddelden van de groepen. Maar door te laten zien dat een bepaalde interval variabele (zoals depressie) gerelateerd is aan een nominale variabele met twee categorieën (depressie status) hebben we het classificatieprobleem nog niet opgelost. We willen niet van nominaal naar interval voorspellen, maar van interval naar nominaal. Als er maar een interval voorspeller gebruikt wordt, kan er een cut-off point worden vastgesteld.
Iedereen die boven die bepaalde waarde komt krijgt een positieve diagnose en iedereen die eronder blijft een negatieve diagnose. In werkelijkheid zal de voorspellingsregel niet perfect werken, omdat er overlap is tussen de verdelingen van de twee groepen op de intervalvariabele. Dit zorgt ervoor dat we altijd twee soorten fouten kunnen maken: (1) valse positieven, waarbij iemand bijvoorbeeld geen depressie heeft maar wel zo wordt geclassificeerd en (2) valse negatieven, waarbij depressieven geclassificeerd worden als niet-depressieven.
Het bepalen van de Cut-off regel
Wat voor cut-off regel we gebruiken hangt af van de mate waarin we beide soorten fouten even slecht vinden. Als we beide soorten fouten even slecht vinden en de groepen dezelfde symmetrische distributie met dezelfde standaardafwijking hebben, zal het punt zich precies tussen de twee groepsgemiddelden bevinden. Als we valse positieven erger vinden en willen elimineren, lopen we de kans om meer valse negatieven te vinden en vice versa. Dit laat zien dat we altijd bepaalde keuzes moeten maken als we de cut-off regel willen bepaalden. De situatie wordt zelfs nog complexer als we meer dan twee groepen willen vergelijken op verschillende dimensies. In dat geval wordt er vaak een discriminantanalyse uitgevoerd.
Discriminantanalyse (DA)
Het doel van een discriminantanalyse is het zo goed mogelijk voorspellen tot welke groep een bepaald persoon behoort door een bepaald aantal interval variabelen (>2) te gebruiken. We kunnen op twee manieren naar de verschillen kijken: vanuit het groepsperspectief en het individueel perspectief. In het eerste geval proberen we de natuur van de verschillen tussen groepen te beschrijven, wat beschrijvende discriminantanalyse wordt genoemd. Daarnaast kunnen we ook het individu als uitgangspunt nemen en de scores op de intervalvariabelen gebruiken om te voorspellen tot welke groep de persoon behoort (Predictieve discriminantanalyse). In deze cursus ligt de nadruk op deze laatste variant.
Wat willen we voorspellen?
De eerste vraag die je je moet stellen is of onze voorspelling betekenisvol is. DA leidt tot een optimale (best mogelijke) voorspelling van de nominale variabele gebaseerd op de intervalvariabelen. Om te kijken of de voorspelling betekenisvol is, kun je kijken of de best mogelijke voorspelling beter is dan je zou verwachten op kansniveau, met behulp van Wilk’s Lambda. Als deze test niet significant is, kunnen we niets nuttigs zeggen over tot welke groep iemand zou behoren op basis van de intervalvariabelen, en is de voorspelling niet betekenisvol. Het is belangrijk om op te merken dat een significant resultaat geen garantie is voor een accurate voorspelling. Je vind soms meerdere Wilk’s Lambda’s in de output: in dat geval moet je de bovenste gebruiken.
Hoe verschillen de groepen?
Eigenlijk hoef je in de context van een voorspellende DA niet te weten op welke manier groepen verschillen (als individuele classificatie je doel is). Als psychologen willen we echter vaak ook weten hoe en waarom deze voorspellingen werken. Een ruwe, maar redelijk effectieve methode is het vergelijken van de gemiddelden op de intervalvariabelen.
Een belangrijke tekortkoming van deze aanpak is dat je geen rekening houdt met intercorrelaties tussen voorspellers, wat tot misleidende conclusies kan leiden. Om dit probleem op te lossen kun je beschrijvende discriminantanalyse gebruiken.
Individueel voorspellen met verschillende voorspellers
Het berekenen van het meest waarschijnlijke groepslidmaatschap voor elk mogelijk individu is een probleem dat niet een bepaalde optimale oplossing heeft die in alle situaties het beste is. Een mogelijke strategie hiervoor is het bekijken van zowel individuen en groepsgemiddelden op p variabelen in een p-dimensionale ruimte. In deze ruimte kunnen we de verschillen berekenen tussen elk individueel punt en alle groepsgemiddelen (m.b.v. de stelling van Pythagoras). Vervolgens wordt elk individu gerekend tot de groep waarnaar deze persoon de kortste afstand heeft. Deze methode kun je ook toepassen als er meer dan twee variabelen zijn, hoewel je het niet meer in ruimtelijke termen kunt voorstellen als je meer dan drie variabelen gebruikt.
Om een werkzame methode te kunnen gebruiken om te voorspellen tot welke groep een individu behoort, moeten een aantal problemen worden opgelost:
Als er verschillen in standaarddeviaties (SD) zijn tussen variabelen, hebben variabelen met een hoge SD een disproportionele invloed op de berekende afstanden. De oplossing voor dit probleem is standaardisatie (Z-scores).
Als variabelen met elkaar gecorreleerd zijn, heeft de variantie die variabelen delen een disproportionele invloed op de afstanden, zelfs als alle variabelen gestandaardiseerd zijn. De oplossing voor dit probleem is om te werken binnen een gestandaardiseerde component ruimte of in de ruimte van de ‘discriminant function variates’.
Als er verschillen tussen groepen zijn in variabiliteit rondom het gemiddelde, zullen homogene groepen een kortere afstand tot de groep nodig hebben dan heterogene groepen. Dit kan worden opgelost door de afstanden van bepaalde groepspunten te wegen op basis van de SD’s van de groep.
De grenzen tussen de groepen hoeven niet per se een lineair karakter te hebben. Met lineaire DA kan dit niet ontdekt worden en niet gebruikt worden als optimale classificatie voor individuen.
Hoe accuraat is de voorspelling?
Om te bepalen hoe accuraat de voorspelling van een DA is, wordt gebruik gemaakt van een classificatietabel. Dit is een tabel waarin de voorspelde en geobserveerde waarden tegen elkaar worden uitgezet, waarvan de cellen de frequenties van alle mogelijke combinaties bevatten. Een algemene maat voor de de kwaliteit van de voorspelling is het percentage accuraatheid in classificatie (PAC):
PAC = aantal goede voorspellingen / totaal aantal voorspellingen
In veel gevallen is een algemene maat zoals de PAC niet precies genoeg, omdat alle errors samenvoegt. Wat betreft meer specifieke maten voor de kwaliteit van de voorspelling, kan onderscheid gemaakt worden tussen de kwaliteit van het instrument (sensitiviteit en specificiteit) en de kwaliteit van de individuele diagnose (positieve en negatieve voorspellende waarde).
Kwaliteit van het instrument
Om de kwaliteit van een instrument vast te stellen is het belangrijk om na te gaan hoe groot de kans is dat een individu van een bepaalde groep ook wordt geïdentificeerd als lid van die groep, wat sensitiviteit genoemd wordt.
Sensitiviteit = aantal goede voorspellingen ziek in groep A / totaal aantal voorspellingen ziek in groep A
Een hoge mate van sensiviteit zorgt voor een toename van valse positieven en een afname van specificiteit en ware negatieven.
Specificiteit: aantal goede voorspellingen niet ziek in groep A / totaal aantal voorspellingen niet ziek in groep A
Zowel sensitiviteit als specificiteit zijn voorwaardelijke kansen. Dit verwijst de kans op gebeurtenis A als we weten dat een andere gebeurtenis (B) heeft plaatsgevonden.
Kwaliteit van individuele diagnose
Als je een diagnose wil stellen voor een bepaald individu, zijn sensitiviteit en specificiteit niet handig om de kwaliteit te beoordelen (je wil niet van echte situatie (Y) naar de voorwaardelijke kans van een specifieke diagnose (X), maar van een bepaalde diagnose (X) naar de voorwaardelijke kans van een echte situatie). In plaats daarvan kun je gebruik maken van de positieve predictieve waarde (het percentage van individuen met een positieve diagnose die ook bij de doelgroep horen) en de negatieve predictieve waarde (het percentage van individuen met een negatieve diagnose die ook niet bij de doelgroep horen). Deze concepten kunnen allemaal ook bij meerdere groepen gebruikt worden, wat bovendien de kans biedt om meerdere vragen te beantwoorden.
Gebruik in andere populaties (Bayes’ regel)
Als we een testbatterij aan een predictieve discriminantanalyse onderwerpen, is het aantrekkelijk om te werken met ongeveer even grote groepen, omdat onze voorspellingen dan een maximale precisie en statistische power hebben. In werkelijkheid zijn de groepen meestal niet gelijk in de populatie. Als je van de originele onderzoeksgroep overgaat naar de populatie veranderen de sensitiviteit en specificiteit niet, maar de positieve en negatieve predictieve waardes wel.
Als de distributie scheef is (bijv. een ziekte is heel zeldzaam) zullen er meer valse positieven zijn ten opzichte van ware positieven. Om hier rekening mee te houden kun je de stelling van Bayes gebruiken.
Bij discriminantanalyse is het dus belangrijk om rekening te houden met de relatieve serieusheid van de fouten die gemaakt kunnen worden en de relatieve frequenties van de groepen die voorspeld moeten worden in de populatie (base rate).
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1098 | 1 |
Add new contribution