Deze samenvatting is geschreven in collegejaar 2012-2013.
Dit college wordt gegeven door H. van der Maas, hoogleraar Psychologische Methodenleer.
Psychologische Methodenleer
De afdeling Psychologische Methodenleer houdt zich vooral bezig met de volgende drie onderwerpen:
Dataverzameling en data-analyse (Adaptief testen via internet, analyse fMRI data, testconstructie)
Wetenschapstheorie (Theoretische psychologie, theorievorming, validiteit van meetinstrumenten)
Psychometrie & Mathematische Psychologie (Modellen van psychologische gegevens: latente variabele modellen, netwerkmodellen)
Wat we willen, is een brug slaan tussen formele modellen (wiskundig, statistisch, computer) en inhoudelijke psychologie. Inhoudelijke psychologie is veelal verbaal, waardoor het lastig is om theorieën te toetsen.
In Nederland is er een aparte groep voor methoden en technieken, omdat:
Psychologie de belangrijkste èn moeilijkste wetenschap is (grens tussen bèta en gamma)
Psychologie zich in een pre-wetenschappelijk stadium bevindt (relatief kort)
Er een enorme markt is voor psychologie (therapie, personeelsselectie, onderwijs, marketing, training)
Waarden (wat moet onderzocht worden, persoonlijke keuze) en normen aan bod komen (wanneer is een antwoord voldoende zeker, wanneer is iets goed genoeg onderzocht)
Kennis van methoden en methodologische discussies essentieel is (ook voor toegepast psychologen)
Twee typen psychologie
In deze cursus wordt gekeken naar de individuele verschillen, hoe en waarom verschillen mensen van elkaar. Rondom dit onderwerp zijn veel controverses. Cronbach (1957) beweerde dat er twee typen psychologie bestaan. Deze twee groepen communiceerden nauwelijks met elkaar, het zijn twee hele aparte gebieden van de psychologie. Dit is nog steeds grotendeels het geval. De twee typen ontstaan door twee verschillende vragen, namelijk: ‘Hoe komt gedrag X tot stand in mensen?’ en ‘Waarom verschillen mensen in gedrag X?’. Voorbeelden van gedrag X zijn: hoofdrekenen, voordringen, zelfmoord, veter strikken of een tv kopen.
Het gaat hier om het mechanisme (procesmodellen) en om de individuele verschillen (latente variabelen, gedrag X weerspiegelt onderliggende capaciteiten, eigenschappen of afwijkingen). Het mechanisme is een vraag voor de cognitieve psychologie, het individuele verschil is een vraag voor de differentiële psychologie. Cronbach was vrij somber over deze twee groepen. Ze hebben verschillende tijdschriften, congressen en onderzoeksmethoden. Cognitie en intelligentie betekenen hetzelfde, maar cognitie is een mechanistisch begrip, terwijl intelligentie gaat over de individuele verschillen. In deze cursus richten we ons op het laatste type, namelijk de individuele verschillen.
Latente variabele, KTT en MTT
Een variabele is een meetbare factor of kenmerk waarmee je mensen kan beschrijven. Een variabele is in principe onbekend, het moet veranderlijk (over tijd en/of personen) zijn en het is het tegenovergestelde van een constante (parameter). Latent is niet direct observeerbaar, onderliggend en de oorzaak van observeerbaar gedrag.
De ware score in een klassieke testtheorie lijkt op de latente variabele. Bij de klassieke testtheorie is de score de ware score plus de meetfout. De ware score is ook niet direct observeerbaar, het is een soort latent begrip. Doel 1 is het uitrekenen van scores (somscore, p-waarde van items, verwachtingswaarde) en doel 2 is het bepalen van betrouwbaarheid (paralleltests, Cronbach’s alfa). Het verschil is dat een latente variabele echt een oorzaak is van observeerbaar gedrag, terwijl de ware score in de klassieke testtheorie dit niet is. De nadelen van een klassieke testtheorie zijn:
Alle parameters die je uitrekent (somscores, p-waarden, betrouwbaarheden) zijn steekproef- en testafhankelijk (niet generaliseerbaar)
Test equation (bijvoorbeeld het elk jaar precies even moeilijk maken van tentamens) is lastig en duur
Vereist eigenlijk paralleltests
Geen model van items, alleen van test
Item bias slecht te onderzoeken (bijvoorbeeld voor bepaalde groepen)
Concept van ware score is niet onproblematisch
Geen toets voor passing
Na de klassieke testtheorie volgt de moderne testtheorie. Hier vervangt de latente variabele de ware score, het kent vaak een model van itemscores en de latente variabele is een niet geobserveerde variabele die de scores op geobserveerde maten verklaart. De steekproefafhankelijkheid is opgelost. Het nut van de moderne testtheorie is het meten van de onderliggende variabele (de oorzaak van gedrag), het verklaren van de samenhang van manifeste indicatoren (reductie van dimensionaliteit, er is maar één score in plaats van tien op een latente variabele, bijvoorbeeld the big five), het verbeteren van toetsing theorieën en het eerlijker meten van individuele verschillen.
Lokale onafhankelijkheid
Voorbeelden van observeerbare (of manifeste) variabelen zijn sekse, inkomen, antwoord op een item, huilen, gewicht en hartslag. Voorbeelden van latente variabelen zijn intelligentie, motivatie, trouw, depressie, temperament en ruimtelijk inzicht. Men scoort hoog op intelligentietesten, omdat zij een hoge intelligentie hebben. Dit is de onderliggende, niet observeerbare oorzaak van het gedrag. Je meet allerlei manifeste variabelen die samen een indicatie van de onderliggende variabele geven. We vinden correlaties tussen de scores op de manifeste variabelen. Wanneer mensen hetzelfde scoren op de latente variabele, is er geen correlatie meer tussen de scores. Meestal is nog niet alles verklaard, maar indien het model goed werkt is er sprake van lokale (gegeven de waarde op de latente trek) onafhankelijkheid. Technisch zeggen we dat een variabele (T) een latente variabele is als het de samenhang tussen de manifeste variabelen (x1, x2... xn) verklaart (doet verdwijnen).
Een voorbeeld voor lokale onafhankelijkheid komt van Lazarsfeld and Henry (1968). Zij stelden de vraag: Is het lezen van krant A gerelateerd aan het lezen van krant B? Bij de verzonnen data is, na een Chi kwadraat test, sprake van een verwerping van onafhankelijkheid. Er is geen sprake van een lokale onafhankelijkheid. Vervolgens wordt de steekproef gesplitst op basis van opleidingsniveau. Hierdoor wordt de lokale onafhankelijkheid herstelt. Het opleidingsniveau verklaart de relatie tussen ‘leest A’ en ‘leest B’. Een ander voorbeeld is een hoge correlatie tussen rekenscore en schoenmaat op een basisschool. Ze zijn afhankelijk door de factor leeftijd. Binnen elke leeftijdsgroep zijn rekenscore en schoenmaat onafhankelijk. Nog een voorbeeld: Hoe meer een gemeente uitgeeft aan de brandweer, hoe meer branden slecht geblust worden. De derde factor is de grootte van de gemeente. Vergelijken we gemeenten van dezelfde grootte, dan verdwijnt deze rare correlatie. In voorgaande voorbeelden is de verklarende variabele manifest (opleidingsniveau, leeftijd, grootte gemeente). In latente variabele modellen is de verklarende variabele latent, je kunt het ook echt niet meten. Personen moeten waarden krijgen op de latente variabele waardoor de onafhankelijkheid tussen de te verklaren variabelen zo groot mogelijk wordt. Dat kan via (een geavanceerde vorm van) trial en error met behulp van de computer. Voor de gegeven voorbeelden van twee manifeste variabelen lukt dat altijd perfect, voor meer dan twee variabelen niet.
Continue latente variabele
Net als geobserveerde variabelen kunnen latente variabelen verschillen in meetniveau. Er kan met name onderscheid gemaakt worden in discrete (categoriale) en continue latente variabelen. Er zijn twee soorten modellen voor continue latente variabelen:
| Discrete Observeerbare Variabele | Continue Observeerbare Variabele |
Continue Latente Variabele | Item responsemodellen | Factormodellen |
Factormodellen zijn buitengewoon belangrijk voor de psychologie. Bij factoranalyse (latente variabelenanalyse) worden geobserveerde continue variabelen (X, bijvoorbeeld subtest scores) verklaard in termen van een kleiner aantal factoren (F, latente variabelen). Het kent een lineaire combinatie van factoren plus error termen (E). X kan je uitrekenen uit de F, maar X is geobserveerd. We willen F uitrekenen nadat we X hebben berekend, maar we hebben bijvoorbeeld vijf bekende variabelen (X) en zeven onbekenden (Twee keer F en vijf keer E). Dit zorgt voor complicaties. Een oplossing is het vinden van een extra assumptie en schatting in SPSS. Je voert scores op X1 tot en met Xn in, het aantal factoren en extra keuzen (bijvoorbeeld rotatie). Als output krijg je factor ladingen (relatie tussen X1 en F1), factorscores (score personen op factor), plaatjes en passingsmaten.
Factormodellen
A.D. de Groot (1914-2006) is de oprichter van Psychologische Methodenleer. Het is een bekende man in de Nederlandse geschiedenis door onder andere zijn drie boeken:
Het denken van den schaker: argumenten voor een nieuwe traditie, Noord-Hollandsch Uitgevers Mij, 1946 (Dit boek stond aan de start van de cognitieve revolutie: kunnen we schaken meten? Er werden schaaktesten ontwikkeld om te kunnen voorspellen hoe goed men kan schaken)
Methodologie: grondslagen van onderzoek en denken in de gedragswetenschappen, Mouton Den Haag, 1961 (Dit boek zorgde ervoor dat de groep Methodenleer ontstond. Er was geen discussie meer tussen de fenomenologen en de bèta georiënteerden over het bedrijven van psychologie op eigen inzichten. De Groot wilde een methodologische aanpak)
Vijven en zessen: cijfers en beslissingen: het selectieproces in ons onderwijs, Wolters Groningen, 1966 (Basisschoolleerlingen waren afhankelijk van de docent naar welke middelbare school zij gingen. Door dit boek is het Cito begonnen)
Waarom schaakt de ene persoon beter dan de andere persoon? Door middel van schaaktesten probeert men hierachter te komen. Er kwamen na factoranalyse vier factoren uit, deze kunnen bijvoorbeeld zo genoemd worden: schaak, geheugen, motivatie en kennis.
Bij intelligentie is er sprake van een hiërarchisch factormodel. Er wordt nog een factor bovenop gezet, de g factor. De g factor verklaart de correlatie tussen de factoren van het eerste niveau, bijvoorbeeld verbal en performance. De latente variabelen zijn hier wat ingewikkelder georganiseerd. Een generalisatie van factoranalyse is SEM (structural equation modelling). Een latente variabele wordt beïnvloed door een andere latente variabele. Een variant is dat twee latente variabelen een andere latente variabele beïnvloeden. Hier wordt een vorm van causaliteit gesuggereerd. Uit correlationele data kun je geen conclusies trekken over causaliteit. Dit is dan ook een discussiepunt. Op welke voorwaarde kun je iets zeggen over de causaliteit in SEM? Andere recente onderzoeksthema’s zijn: Longitudinale data (dit soort modellen over de tijd gebruiken), model equivalentie, meetinvariantie en technische verbeteringen.
Item responsetheorie
Bij item responsemodellen gaat het over discrete geobserveerde variabelen, gemeten met bijvoorbeeld dichotome items, multiple choice en Likert schalen. Het is het idee van een latente trek, een lijn waar iedereen een bepaalde waarde op heeft. Gegeven die waarde (q), heb je een bepaalde kans om een item correct te maken (p+). Bij een stapfunctie heeft iedereen onder een bepaalde latente grenswaarde het item zeker fout en boven die waarde zeker goed. De stapfunctie is niet echt waarheidsgetrouw, meestal is het geleidelijke lijn. Gegeven de latente trekwaarde (q) en moeilijkheid item (b), kan de kans (p+) eenvoudig berekend worden. De latente trekwaarde (q) kan een beetje worden vergeleken met de somscore bij een klassieke testtheorie en de moeilijkheid van het item (b) met de p-waarde. De kans (p+) of in ieder geval de itemscore is geobserveerd. We willen de b’s en de q’s uitrekenen. Een oplossing is een schatting met computerprogramma’s.
Enkele uitbreidingen van het item responsemodel zijn items met verschillend onderscheidingsvermogen. Hoe steiler het item loopt, hoe betrouwbaarder het item is. In een test kunnen de items van betrouwbaarheid verschillen. Een andere uitbreiding is de gokkans. Hier lopen de items niet naar de kans 0, maar daarboven. Hoe slecht je ook bent, je kunt niet alles fout hebben.
Drie toepassingen van dit type model zijn:
Test equating (Is het tentamen elk jaar even moeilijk? Oplossen door bijvoorbeeld een aantal items van vorig tentamen in het nieuwe tentamen te verwerken of een aantal studenten van vorig tentamen nu weer het tentamen laten maken)
Detectie van itembias (Zijn sommige items voor personen uit verschillende groepen, maar met dezelfde q verschillend in moeilijkheid?)
Computer adaptief testen (Niet alle items afnemen maar volgorde laten bepalen door succes op vorige item(s))
Recente onderzoeksthema’s zijn: Optimaal adaptief testen, afleiding van het item responsemodel uit modellen van cognitie (logistische functies kiezen we zomaar), opname van reactietijden (niet alleen kijken naar hoe goed het tentamen is gemaakt, maar ook hoe snel het tentamen is gemaakt) en technische verbeteringen.
Dit college wordt gegeven door D. Borsboom. Hij is gepromoveerd op ‘Conceptuele problemen in het meten’.
Psychologische test
Een psychologische test is overal. Bij het vaststellen van ADHD, wordt bijvoorbeeld een ADHD vragenlijst afgenomen. Hierna kan een diagnose worden gesteld en kan de arts bijvoorbeeld Ritalin voorschrijven. Door een psychologische test wordt het gedrag van een persoon in kaart gebracht. Dit is een belangrijke uitvinding van de psychologie.
Belangrijke ‘spelers’ bij een psychologische test zijn:
De testgebruiker: Iemand die iets over mensen wil weten en die iets met die informatie wil doen
De test: een ‘apparaat’ dat gebruikt wordt om responsen uit te lokken
De testscore: Een numerieke weergave van de responsen
De interpretatie van de testscore: De aan de testscore toegekende betekenis, op basis van wetenschappelijke literatuur
De actie die op basis van die betekenis wordt uitgevoerd (bijvoorbeeld het besluit om bepaalde therapie te geven)
Belangrijke vragen bij verantwoord testgebruik zijn:
Snapt de testgebruiker wat de test doet? Sluit het doel van de gebruiker aan bij de test? Ben je bewust van het feit dat je onbekwaam ben en stap naar een expert toe.
Meet de test wat hij moet meten? (validiteit)
Zijn de verschillen tussen testscores betrouwbaar? (twee keer testen en kijken of er hetzelfde antwoord uitkomt)
Is er evidentie voor de interpretatie van de testscore?
Is de actie die wordt uitgevoerd gelegitimeerd gegeven evidentie en doel van de gebruiker? (is het sterk genoeg om de actie te rechtvaardigen)
Een voorbeeld van hoe het mis kan gaan is de Bolderkar affaire. Hulpverleners hadden met de poppenmethode vastgesteld dat een aantal kinderen van een kinderdagverblijf misbruikt waren. Zij lieten kinderen met naakte poppen spelen en vonden dat als de kinderen seksuele handelingen uitvoerden, zij waarschijnlijk misbruikt waren. Na uitgebreid onderzoek konden de beschuldigen niet hard gemaakt worden. De poppenmethode bleek invalide. Men gelooft alles, dus als psychologen moet je voorzichtig zijn en nee durven zeggen. Bij bijvoorbeeld de vraag naar een dyslexie test voor driejarigen, moet een psycholoog nee zeggen. Die kinderen kunnen namelijk helemaal nog niet lezen.
Hoe legitimeer je beslissingen op grond van tests? Door te laten zien dat de kwaliteiten van de test voldoende zijn voor het doel waarmee die test gebruikt wordt. Hier is onderzoek voor nodig. Verschillende doelen vereisen vaak verschillende kwaliteiten.
Soorten testgebruik
Er zijn drie soorten testgebruik, namelijk:
Samenvatten
Voorspellen
Meten
Vaak wil men met tests samenvatten wat iemand weet, kan of typisch doet. Een tentamencijfer vat bijvoorbeeld in één getal samen hoe goed iemand het heeft gedaan. Bij samenvatten is belangrijk dat de inhoud van de test het domein waarover je iets wil zeggen zo volledig en evenwichtig mogelijk dekt. Bij een OMS tentamen moet je bijvoorbeeld niet negen vragen stellen over Onderzoeksmethoden en maar één over Statistiek. Dit noemt men ook wel inhoudsvaliditeit. Enkele bedreigingen zijn onvolledigheid (sommige domeinen worden overgeslagen, bijvoorbeeld een rekentest die geen vermenigvuldigingsommen heeft) en irrelevante inhoud (bijvoorbeeld een rekentest die opgaven bevat die deels van de taalbeheersing van een persoon afhangen, er wordt te veel gemeten). Mogelijke oplossingen zijn het goed nadenken over hetgeen je wilt samenvatten, experts vragen wat de relevante domeinen zijn, experts de test laten beoordelen op volledigheid, zorgen dat irrelevante vaardigheden zo min mogelijk meespelen. Hiervoor bestaan geen formele, wiskundige procedures.
Vaak wil een gebruiker op basis van testscores voorspellen hoe iemand het gaat doen in de toekomst (bijvoorbeeld bij de selectie van studenten). Bij voorspellen is het belangrijk hoe sterk de samenhang tussen de testscore en het criterium is. Dit noemt men ook wel criteriumvaliditeit. Deze criteriumvaliditeit kan worden bedreigd door alle factoren die de samenhang met het criterium verzwakken, zoals onbetrouwbaarheid (meer ruis betekent een zwakkere samenhang), verkeerde keuze voorspeller (samenhang te laag), ‘restriction of range’ (beperking van de variantie in de testscore leidt tot zwakkere correlatie).
Hoe goed zou selectie werken? Nieuwe studenten kunnen worden aangenomen op basis van motivatie en resultaten. Selectie op motivatiescores heeft alleen zin, als succes en motivatie samenhangen. Er moet dus een correlatie zijn tussen deze variabelen. Aan de hand van deze correlaties kan er worden gesproken over positives en negatives. Er kunnen vier soorten worden onderscheiden:
True positive (bijvoorbeeld de student is aangenomen en geschikt)
True negative (bijvoorbeeld de student is niet aangenomen en niet geschikt)
False positive (bijvoorbeeld de student is aangenomen en niet geschikt)
False negative (bijvoorbeeld de student is niet aangenomen en geschikt)
In dit geval is de vraag hoe zwaar het weegt om af te wijzen terwijl studenten wel geschikt zijn (False negative). Er kan worden gekeken naar de hit rate, het percentage juiste beslissingen. Een hogere correlatie tussen predictor en criterium en een scherpere selectie (minder studenten aannemen) geven een hogere hit rate. In Nederland werkt selectie erg slecht. De correlatie tussen mogelijke predictoren en succes zijn te laag. Ook hebben universiteiten een ongunstige selectieratio (ze moeten veel studenten aannemen). In Amerika werkt selectie goed, omdat de correlatie tussen mogelijke predictoren en succes hoger is. Dit komt doordat er meer variantie is. In Nederland is er al selectie geweest op de middelbare school (VWO, HAVO, VMBO) en in de VS doet iedereen High School. In Nederland is er dus restriction of range.
De criteriumvaliditeit kan worden verbeterd door alle ingrepen die de samenhang versterken, zoals een hogere betrouwbaarheid (meer items afnemen), een betere voorspeller kiezen (hogere samenhang) en zorgen dat er voldoende variantie in de voorspeller is. Soms lukt dit simpelweg niet.
Om iets te meten is er een meetinstrument nodig dat alleen datgene meet wat je wilt meten. Zo is een weegschaal alleen maar gevoelig voor massa en niet voor kleur of vorm. Er is een causale relatie tussen eigenschap en testscore nodig (meetvaliditeit). Verschillen in eigenschap leiden tot verschillende testscores.
Enkele ingrediënten voor validatie onderzoek zijn: Een theorie over de structuur van de te meten eigenschap (ontwikkelingsstadia), een theorie over de processen die de structuur van de eigenschap overbrengen op de testscores (het volgen van verschillende regels) en een statistisch model om de theorie te toetsen tegen geobserveerde data (latente klassenanalyse). In verschillende ontwikkelingsstadia gebruiken kinderen andere regels. Zo is stadium 1 bij een balanstaak: tel de gewichten, stadium 2: neem de afstanden mee, maar alleen als de gewichten gelijk zijn, stadium 3: neem de afstanden mee, maar ga gokken als de afstands- en gewichtscues conflicteren en stadium 4: vermenigvuldig de afstand met het aantal gewichten. In ieder stadium is er dus een ander responsproces.
Verschillende doelen geven verschillende eisen. Goed samenvatten vraagt dekking van een
domein, goed voorspellen vraagt een hoge correlatie met een criterium en goed meten vraagt een robuuste causale relatie tussen eigenschap en testscore.
Dit college wordt gegeven door K. Kovacs. Hij is gepromoveerd op intelligentie.
Twee disciplines
De twee disciplines van psychologie (Cronbach, 1957) zijn experimenteel versus correlationeel. Terwijl de experimentator alleen geïnteresseerd is in de verschillen die hij zelf creëert, vindt de correlator zijn interesse in de reeds bestaande verschillen tussen individuen, sociale groepen en soorten. De experimentele werkwijze zorgt voor het strenge testen van hypothesen en zelfverzekerde uitspraken over causaliteit. De correlationele methode kan onderzoeken wat de mens niet heeft geleerd of nooit hoopt te beheersen.
In tegenstelling tot de Tight Little Island van de experimentele discipline, is correlationele psychologie een soort Heilige Roomse Rijk waarvan de burgers zich vooral identificeren met hun eigen overheden. De correlationele psycholoog is gek op alleen die variabelen die de experimentator achterwege liet. Bij de experimentator verzwakken de resultaten bij individuele verschillen en bij de correlator verzwakken de resultaten bij behandelverschillen. Het doel van een correlator is om variatie te voorspellen binnen een behandeling. Behandelverschillen zorgen hier alleen voor error variantie.
The positive manifold
Prestaties op een gevarieerde batterij van tests (bijvoorbeeld mentale rotatie, woordenschat en matrix redeneren) zijn altijd positief gecorreleerd. Ongetwijfeld is er in de Psychologie het meest gerepliceerde resultaat. Een algemene factor (g) is goed voor ongeveer 50% van de totale variantie. Er is al meer dan een eeuw geen consensus over de aard ervan.
Historische modellen
Historische modellen zijn:
Spearman’s twee factormodel
Hierbij zijn de testscores (V) het resultaat van een algemene factor (g).
Thurstone’s PMA model
Hierbij zijn bepaalde testscores (V) het resultaat van een factor (F). Andere testscores zijn het resultaat van andere factoren.
Het huidige geaccepteerde model is Carroll’s hiërarchisch model. Hierbij worden de factoren (F2, second order factors) beïnvloedt door een algemene factor (g) en zijn bepaalde factoren (F1, first order factors) het resultaat van een tweede orde factor (F2). Andere eerste orde factoren (F1) zijn het resultaat van andere tweede orde factoren (F2). Bepaalde testscores (V) zijn het resultaat van een factor (F1). Andere testscores zijn het resultaat van andere factoren (F1). Een alternatief is het BI-factormodel van Holzinger en Swineford. Hierbij worden bepaalde testscores (V) beïnvloedt door een factor (F) of een algemene factor (g). Andere testscores zijn het resultaat van andere factoren (F).
Een model dat kijkt naar de inhoud van factoren is het Gf/Gc model. Gf is het vermogen om problemen op te lossen in nieuwe situaties, ongeacht eerder verworven kennis (bijvoorbeeld matrix redeneren). Gc is het vermogen om problemen met behulp van reeds verworven vaardigheden of kennis te lossen (bijvoorbeeld woordenschat). Andere belangrijke factoren zijn Gv (visuospatieel vermogen), Gs (snelheid), Gsar (korte termijnverwerving en het ophalen van informatie).
Een algemene intelligentie (g)
Is het juist om een algemene factor (g) gelijk te stellen aan een algemeen domein cognitief mechanisme dat werkt binnen individuen? Dat wil zeggen, iemand gebruikte zijn of haar algemene intelligentie om items op zowel de woordenschattest als de mentale rotatietest juist te beantwoorden. Algemene intelligentie is een voldoende, maar niet noodzakelijke uitleg van de positive manifold. De meest karige verklaring is uitsluitend gebaseerd op de tussen-individuele gegevens. De juistheid niet kan worden bepaald met alleen tussen-individuele gegevens. Dus laten we eens kijken naar gegevens over binnen-individuele processen.
Dissociaties tonen aan dat g het resultaat is van de correlatie tussen aparte cognitieve processen. Dit blijkt uit de volgende bewijzen/punten:
Het neuropsychologische bewijs is selectieve aantasting van de ruimtelijke en verbale processen als gevolg van hersenbeschadiging (Gc versus Gv).
Specifieke ontwikkelingsstoornissen zoals bijvoorbeeld het syndroom van Williams (Gc versus Gv).
Experimenteel bewijs is het uitvoeren van een experimentele manipulatie van een variabele, maar niet van de andere variabele (Gc versus Gv).
Sekseverschillen (ruimtelijk voordeel bij mannen, verbale voordeel bij vrouwen, Gc versus Gv).
Schade aan de prefrontale cortex. 'Dergelijke tests -zoals de CCF en de RPM- kunnen een aanzienlijke afname zien na frontale kwab laesies, zelfs als tests zoals de WAIS dit niet ziet', Duncan, 1995 (Gf versus Gc).
Het Flynn effect. Er is sprake van seculiere toename van 15 IQ-punten per generatie in Gf en vijf IQ-punten per generatie in Gc (Gf versus Gc).
De heersende wetenschap over intelligentie (1994)
Intelligentie is een zeer algemene mentale vermogen dat onder andere betrekking heeft op het vermogen om te redeneren, plannen, problemen op te lossen, abstract te denken, complexe ideeën te begrijpen, snel te leren en te leren van ervaringen. Intelligentie kan goed worden gemeten door intelligentietests. Hoewel er verschillende soorten intelligentietests zijn, meten ze allemaal dezelfde intelligentie. Sommige gebruiken woorden of cijfers en vereisen specifieke culturele kennis (zoals woordenschat). Andere maken in plaats daarvan gebruik van vormen of ontwerpen en vereisen kennis van slechts eenvoudige, universele concepten (bijvoorbeeld veel/weinig, open/gesloten, omhoog/omlaag).
De meeste consensuele uit 49 uitspraken, met een gemiddelde van 4.47 van 5 (Reeve & Charles, 2008, pag. 684) is 'GCA is redelijk goed gemeten met gestandaardiseerde tests'. Gould bekritiseerde dit. Hij vond dat er verzakelijking van g optrad, terwijl het een methologische abstractie is. Er zijn verschillende eigenlijke methoden van factoranalyse in het algemeen en met name voor de rotatie van factoren, dus of men g vindt is volkomen willekeurig. Hij toont bezwaar tegen de interpretatie van g als algemene intelligentie. Echter, g kan niet worden rotated away. Gould betoogt dat er een oneindig aantal oplossingen zijn voor een gegeven matrix, elke oplossing zal wat doen. Dit is een logische denkfout, net zoals bijvoorbeeld de verzameling van natuurlijke getallen die een oneindig aantal elementen heeft, maar geen van beide, -2 of 0, behoren tot deze set.
Werkgeheugen, korte termijngeheugen en Gf
Werkgeheugentaken zijn voornamelijk te weerspiegelen met algemene uitvoerende processen en in de tweede plaats met domeinspecifieke oefening en opslag processen. Op korte termijngeheugen taken daarentegen weerspiegelen domeinspecifieke opslag en oefenvaardigheden en strategieën primair en in tweede instantie wordt pas de uitvoerende aandacht verwerkt (Kane et al., 2007, 24). Welk component van het (binnen-individuele) werkgeheugensysteem is verantwoordelijk voor de positive manifold in het werkgeheugen (dat wil zeggen de algemene factor werkgeheugencapaciteit)?
Het meten van individuele verschillen in het werkgeheugen kan met behulp van een leestaak (Daneman en Timmerman, 1980). Dit gaat over parallelle opslag en verwerking. De zinnen moeten hardop worden gelezen en het laatste woord mag niet vergeten worden. Een voorbeeldzin is: 'Ze gingen naar het terras van het appartement om de daken van de stad te bewonderen.' Het waren twee tot zes zinnen. De correlaties waren: met woordbereik .35 NS,
VSAT .59, begrijpend lezen .72 en vragen over het zelfstandig naamwoord waarnaar een voornaamwoord is verwezen .90. Een verklaring is dat betere lezers minder hoeven te verwerken tijdens het lezen en dus meer mogelijkheden hebben voor opslag-gerelateerde processen (bv. codering, oefening). Het beter terugroepen van woorden wordt veroorzaakt door een betere leesvaardigheid. Turner en Engle (1989) dachten dat de werkgeheugencapaciteit (WMC) onafhankelijk is van de uitgevoerde taak. Een betere WMC veroorzaakt betere leesvaardigheid
De algemene factor van het werkgeheugen: Werkgeheugencapaciteit.
Er is sprake van positive manifold in complexe taken. De algemene factor is WMC. Operationeel gedefinieerd: het proces dat we niet bezig zijn met het herinneren van een eenvoudige lijst van woorden, maar we hebben bezig zijn met het herinneren van een lijst met laatste woorden van een zin die we hardop lezen of waarvan we over de betekenis beslissen. Het kan niet worden aangemerkt als een algemeen domein van werkgeheugenvermogen, omdat deze in strijd zou zijn met de centrale theoretische aannames over binnen-afzonderlijke mechanismen waarop van het werkgeheugenmodel werd gebouwd. Is het de uitvoerende component?
Het werkgeheugen en intelligentie zijn sterk gerelateerd, maar niet gelijk aan elkaar. Kyllonan & Christal (1990) vonden .8 - .88. Hier zijn de begrippen bijna identiek. Ackerman et al (2005) vond in een meta-analyse de volgende correlatie met g: .397 (.324 is niet correct). En Kane, Hambrick, & Conway (2005) vonden met een latente variabele analyse met Gf: .72.
Executieve aandachtstheorie
Individuele verschillen in werkgeheugencapaciteit zijn voornamelijk te wijten aan verschillen in de uitvoerende aandacht. Cognitieve controle mechanismen zijn het onderhouden van een doel, selectieve aandacht, updaten en inhibitie (interferentie resolutie). Individuen die beter presteren op tests van de werkgeheugencapaciteit presteren ook beter op tests van cognitieve controle, volgens Kane en Engle (2003), Kane, Bleckley, Conway en Engle (2001), Conway, Tuholski, Shisler en Engle (1999) en Conway, Cowan en Bunting (2001). Het werkgeheugen, de cognitieve controle en de vloeibare intelligentie zijn allemaal bijzonder afhankelijke regio's van de laterale prefrontale cortex, volgens Kane en Engle (2002), Gray, Chabris en Braver (2004) en Burgess, Braver, Conway en Gray (in press).
Conclusies
Werkgeheugen en intelligentie zijn sterk gerelateerde constructen. Beide zijn multi-componente systemen en hebben betrekking tot een groot aantal processen. Sommige van deze processen zijn waarschijnlijk hetzelfde. Het is de EF component van het werkgeheugensysteem dat verantwoordelijk is voor de correlatie tussen werkgeheugencapaciteit met g. Het is non-verbale, vloeibare intelligentie (Gf) dat verantwoordelijk is voor het correleren van g met de werkgeheugencapaciteit.
Dit college wordt gegeven door T. Polderman. Zij is gepromoveerd op ‘the nature and nurture of behavioral problems in children, attention, and cognition’.
Francis Galton (1822-1911) was geïnspireerd door ‘The Origin of Species’ van zijn oom Charles Darwin, 1859. Galton was geïnteresseerd in menselijke (cognitieve) capaciteiten en over de vraag of deze erfelijk waren. Hij onderzocht de familieleden van een uitmuntende man. Galton beargumenteerde dat wanneer vaardigheden erfelijk zouden zijn, er meer uitmuntende mannen binnen een uitmuntende familie zouden zijn dan in de gewone populatie. Dit bleek inderdaad het geval. Familieleden van uitmuntende mannen waren zelf ook vaker uitmuntend. Bovendien nam het aantal uitmuntende mannen af naarmate de verwantschap minder werd. Galton trok hieruit de conclusie dat (cognitieve) vaardigheden erfelijk zijn. Maar is dat ook zo? Er was in die tijd namelijk een enorm verschil in de sociale klassen. Heel gek was zijn idee niet, maar er zaten wel wat haken en ogen aan. Galton introduceerde de term nature versus nurture. Hij suggereerde dat geadopteerde individuen en tweelingen een goede onderzoekspopulatie zouden zijn.
Thomas Bouchard (1979) hoorde van een tweelingpaar, Jim Springer en Jim Lewis, die bij de geboorte gescheiden waren en elkaar pas weer hebben ontmoet toen ze 39 jaar waren. De tweeling was getrouwd met een vrouw genaamd Linda, zijn ook weer van haar gescheiden en trouwden later met een vrouw genaamd Betty. Één van de broers noemde zijn zoon James Allan en de ander James Alan. Ze hadden allebei een hond die Toy heette. Bouchard richtte toen de Minnesota Study of Identical Twins Reared Apart, op en heeft zo’n 100 tweelingparen weer samengebracht. Hij ontdekte dat ondanks het feit dat de tweelingen in totaal verschillende omgevingen waren opgegroeid zij opmerkelijke overeenkomsten vertoonden in IQ, interesses, persoonlijkheid en gewoonten. Indien deze identiek waren, leken genen daadwerkelijk een rol te spelen.
Binnen families is het lastig om omgevings- en genetische factoren te onderscheiden (familiestudies). Adoptiestudie is ook een mogelijkheid om nature versus nurture te bekijken, maar hier vindt vaak strenge selectie plaats. Hierdoor zijn adoptiegezinnen vaak specifieke gevallen, wat als gebrek heeft dat dit niet 100% te generaliseren is naar de populatie.
Moderne tweelingstudies
Galton was de eerste die suggereerde dat tweelingen een betere onderzoekspopulatie waren om nature en nurture van elkaar te onderscheiden. Hij wist echter niet dat er twee soorten tweelingen bestaan, namelijk:
Monozygote (MZ) tweelingen. Deze tweelingen zijn genetisch identiek, ze ontstaan uit één eicel en één zaadcel.
Dizygote (DZ) tweelingen. Deze tweelingen zijn niet genetisch identiek, ze ontstaan uit twee eicellen en twee zaadcellen.
Drie bronnen zorgen voor de individuele verschillen tussen tweelingparen, namelijk:
Genen
Gedeelde omgeving (zou ervoor kunnen zorgen dat je op je familie lijkt, bijvoorbeeld de opvoeding, school)
Unieke omgeving (zou ervoor kunnen zorgen dat je van je familie verschilt, bijvoorbeeld een ongeluk, longontsteking)
Tweelingmodel
Bij een MZ tweelingparen is er sprake van 100% genen, 100% gedeelde omgeving en 0% unieke omgeving. Bij de DZ tweelingparen is er sprake van 50% genen, 100% gedeelde omgeving en 0% unieke omgeving. Wanneer MZ tweelingen binnen paren meer op elkaar lijken dan DZ paren kan daar maar één reden voor zijn, namelijk de genen.
‘Het is erfelijk’ houdt in dat deel in dat door genetische verschillen wordt verklaard.
Dus ‘intelligentie is voor 80% erfelijk’ betekent dat 80% van de verschillen tussen mensen in
intelligentie door genetische verschillen tussen mensen wordt verklaard.
Tweelingdata
In grote groepen tweelingen (>1000) worden vragenlijstdata verzameld. Deze vragenlijsten worden afgenomen bij ouders, leerkrachten en bij de tweelingen zelf. Leerkrachten hebben vaak maar één van de twee leerlingen in de klas, waardoor zij ander soort data opleveren dan bijvoorbeeld de ouders. In kleinere groepen tweelingen worden cognitieve data
verzameld, maar ook neuropsychologische taken, MRI, EEG en observaties.
Gen omgevingsinteractie
De mate van erfelijkheid is afhankelijk van de omgeving. Indien de sociaal economische status hoog is, zullen de genen belangrijk zijn en de gedeelde en unieke omgeving nauwelijks. Dit is precies andersom wanneer de sociaal economische status laag is.
Aandachtsproblemen
Bij aandachtsproblemen is er vaak sprake van hyperactiviteit, ongeconcentreerdheid/ dromerigheid, impulsiviteit en snelle afleiding. Dit wordt ook wel ADHD genoemd. De erfelijkheid van aandachtsproblemen is gelijk voor jongens en meisjes. Over de leeftijd heen is er niet echt een verschil tussen de genetische- en omgevingsinvloeden op deze problemen.
Aandacht kan gemeten worden met vragenlijsten, maar ook met een STROOP taak. Bij een STROOP taak wordt er gebruik gemaakt van inhibitie, focussen en afleiden. Een STROOP taak bestaat uit drie kaarten. Op de eerste kaart staan kleuren als woorden weergegeven in het zwart. Op de tweede kaart staan echt kleuren weergegeven en op de derde kaart staan kleuren als woorden weergegeven in andere kleuren. Het is de bedoeling dat de deelnemers zo snel mogelijk lezen wat er op de kaart staat.
De gedeelde omgevingsinvloeden zijn niet van invloed op aandachtsproblemen. Deze problemen zijn aangeboren en niet aangeleerd.
Conclusies
Verschillen in een reeks van menselijke eigenschappen kunnen verklaard worden door de genen. Verschillen in genetische overeenkomst tussen MZ- en DZ tweelingen worden gebruikt om genetische- en omgevingsinvloeden te onderscheiden. Na adoptie- en familiestudies zijn tweelingstudies de meest handige studies van de gedragsgenetica gebleken. De volgende stap is het vinden van de genen.
Dit college wordt gegeven door Marthe Straatemeier. Zij werkt onder andere voor Oefenweb.nl via de Universiteit van Amsterdam.
Rekentuin
Rekentuin is ontwikkeld door de programmagroep Psychologische Methodenleer van prof. dr. Han van der Maas aan de UvA. Doelen zijn het verzamelen van data voor wetenschappelijk onderzoek, kinderen de mogelijkheid bieden om rekenvaardigheid op
een speelse manier te ontwikkelen en leerkrachten nakijkwerk uit handen nemen en inzicht geven in ontwikkeling van leerlingen. In het schooljaar van ‘07-’08 en ‘08-’09 heeft Rekentuin gedraaid als onderzoeksproject. In maart 2009 heeft de UvA Oefenweb.nl opgericht om Rekentuin verder te ontwikkelen. Inmiddels betalen scholen zelfs voor dit programma. Rekentuin is een tuin van rekenvaardigheden om kinderen te testen en te volgen. Spelenderwijs kunnen zij hun rekenvaardigheden oefenen, dit gaat aan de hand van het groeien van plantjes en het verdienen van muntjes. Hoe sneller een kind het juiste antwoord geeft, des te meer muntjes verdient het en des te eerder kan het kind de muntjes inwisselen voor een digitale prijs.
Rekentuin is een web-based computer adaptieve hoogfrequente oefen-volgsystemen Zo is het als het ware een digitaal schrift, wat als voordelen heeft dat het overzichtelijk is en goed wordt nagekeken. De docent heeft geen nakijkwerk meer, maar heeft wel duidelijke scoreprofielen. Ook zijn de oefeningen automatisch afgestemd op het niveau van het kind en is Rekentuin een combinatie van oefenen en toetsen (volgen). Hierdoor zijn er geen aparte toetsen meer nodig. Door dit programma is er meteen data beschikbaar voor onderzoek naar rekenen. Het programma meet namelijk de dagelijkse ontwikkeling van de kinderen, waardoor onderzoek en onderwijs zijn geïntegreerd. Daarnaast kunnen de kinderen er thuis aan werken, aangezien het via internet te openen is. De rekentuin is een nieuwe vorm van computer adaptief toetsen met tijdsdruk (psychometrie). Het is een microgenetisch design dat gebruik maakt van accuratesse en reactietijden om rekenvaardigheid te meten.
Cognitieve expertise
Een voorbeeld van een expertise is een kind dat al op vroege leeftijd goed is in schaken. Hoe zorg je dat iemand goed wordt? Talent is overschat. Indien er sprake is van deliberate practice (intensieve langdurige op het kind afgestemde training op inzicht en in oefenen) kan misschien elk kind een expertise ontwikkelen. Rekenen en taal worden ook gezien als een vorm van cognitieve expertise.
Metingen
De ontwikkeling van kinderen kan onderzocht worden door cross-sectioneel of longitudinaal onderzoek. Bij cross-sectioneel onderzoekworden proefpersonen van verschillende leeftijden getest. Dit heeft als nadeel dat het verschil tussen de kinderen niet per se aan de leeftijd hoeft te liggen. Bij longitudinaal onderzoek worden dezelfde proefpersonen op verschillende leeftijden getest. Dit heeft als nadeel dat een onderzoek erg lang duurt.
Het is belangrijk dat de ontwikkeling van een kind met hoogfrequente metingen wordt onderzocht. Dit houdt in dat de dichtheid van metingen hoog moet zijn in vergelijking met de mate van verandering. Dit wordt ook wel de microgenetische methode genoemd. Dezelfde kinderen worden gedurende een periode van ontwikkeling gevolgd. Bij “Trial-by-trial” analyse van ontwikkelingsprocessen zijn transities, terugval en predictie op te merken. De microgenetische methode is erg nuttig aangezien cognitieve ontwikkeling en leren complexe dynamische processen zijn. Daarnaast verschaffen hoogfrequentie metingen meer inzicht. De nadelen van deze methode zijn de leereffecten (de test op zich is al een training), het kost veel tijd en geld, motivatieproblemen en moeilijke datasets (bijvoorbeeld door missing values en ruis).
De voordelen van digitaal toetsen zijn dat de computer alles nakijkt en dat de afnamesituatie meer gestructureerd is. De nadelen zijn dat het computers en computervaardigheid vereist. Een grote computermuis kan voor een klein kind nogal tegenwerken.
CAT (Computer Adaptief Testen)
Bij CAT hangt de volgorde van items die worden aangeboden af van de prestatie van de testnemer op eerdere items. Eerst is er een selectie van een optimaal item gebaseerd op de vaardigheidsschatting van de testnemer, daarna volgt de afname van het item, vervolgens de scoring van het item, hierna een update van de vaardigheidsschatting en uiteindelijk worden de stappen herhaald tot er wordt voldaan aan een stopcriterium.
Indien er wordt gekeken naar de Item response functie kan rekenvaardigheid als latente trek worden beschouwd. Gegeven de latente trek waarde (θ) en de moeilijkheid van het item (β), kan de kans op een juist antwoord (p+) eenvoudig berekend worden. Wanneer de kans op een juist antwoord laag is, wordt dit item waarschijnlijk niet aangeboden. Ook bij een hoge kans op een juist antwoord wordt een item waarschijnlijk niet aangeboden. Dit is namelijk niet heel relevant. Bij een kans van 50% op een juist antwoord is het item het meest informatief. Dit wordt ook wel item moeilijkheid genoemd. Het is de plek op de latente trek waarbij de kans 50% is dat de opgave juist wordt beantwoord.
De voordelen van CAT zijn:
Iedere testnemer werkt op zijn of haar eigen niveau.
Er zijn minder items nodig voor betrouwbare vaardigheidsschatting.
CAT geeft betrouwbare schatting voor een grote range aan vaardigheidsniveaus.
Problemen van “klassieke” CAT’s zijn:
Alleen accuratesse wordt gebruikt om vaardigheden te schatten, reactietijd speelt geen rol.
Er wordt een ‘pretested’ itembank vereist (vooraf items testen).
De meest informatieve items zijn items met een kans van .5 om het item goed te beantwoorden. Dit kan leiden tot frustratie/onbegrip bij het maken van deze items. Gebruik van items met kans op een juist antwoord boven .7 komt de motivatie ten goede maar vermindert testefficiëntie aanzienlijk (Eggen & Verschoor, 2006).
Testscores zijn moeilijker te interpreteren (onderling vergelijken is niet mogelijk).
Toevoegingen aan het adaptief systeem zijn:
Snelheid en accuratesse zijn geïntegreerd.
Snel gokken wordt gestraft.
Visueel spelelement.
Elo ratingsysteem: Dit biedt de oplossing voor pretesting, want de moeilijkheid is niet vastgelegd. Het is gebaseerd op ELO ratingsysteem voor paarsgewijze vergelijkingen uit schaakwereld (Elo, 1978). De rating van een speler verandert afhankelijk van de uitkomst van de partij en de rating van de tegenstander.
Elo ratingsysteem in Rekentuin
Kinderen spelen tegen items. Als een kind een fout antwoord geeft, wint de opgave, afhankelijk van de rating van het kind. Pre-testing is niet nodig. Items kalibreren tijdens het spelen.
Rating update na elke som:
Kind: Rating_nieuw = rating_oud + k * (score – verwachte score)
Item: Rating_nieuw = rating_oud + k * (verwachte score – score)
k = schalingsfactor (gevoeligheid)
Voordelen van het nieuwe CAT systeem zijn:
Er is geen pre-testing nodig, vanwege Elo rating systeem (dit kost minder tijd en geld).
Het speed accuracy probleem is opgelost.
Reactietijd wordt gebruikt om vaardigheid te meten.
Omdat we nu informatie uit de responsetijden halen kunnen we makkelijkere items aanbieden (p+ = .75).
Het gokprobleem is opgelost (high speed, high stakes).
Onderwijs en onderzoek
Het doel van de samenwerking tussen onderwijs en onderzoek bij Rekentuin is het rekenonderwijs verbeteren. Het onderwijs biedt de wetenschap anonieme data en de wetenschap biedt het onderwijs innovatieve psychometrie en nieuwe inzichten in de rekenontwikkeling en leerprocessen.
De voordelen van Rekentuin zijn dat scholen bereid zijn om mee te werken, er mogelijkheid is om veel data te verzamelen, onderwijs en onderzoek van elkaar kunnen profiteren (feedback uit praktijk is nuttig). Nadelen zijn dat er weinig controle is op speelgedrag en dat er mogelijk onbetrouwbare data is.
Dit college wordt gegeven door S. van der Ven, postdoc bij Psychologische Methodenleer.
Executieve functies
Executieve functies zijn cognitieve processen die je in staat stellen om flexibel te reageren in een steeds veranderende omgeving. Reptielen hebben dit bijvoorbeeld niet. De processen vinden voornamelijk vooraan in de hersenen (frontale cortex) plaats. Het is evolutionair gezien het nieuwste deel van de hersenen. Dit wordt dan ook het eerste aangetast wanneer iemand dronken is.
Phineas Gage kreeg rond 1850 een ijzeren staaf door zijn hoofd en overleefde dit. Hij was alleen heel erg veranderd van karakter, zo kon hij geen leiding meer geven door het vele schelden. Zijn oog en frontale hersendeel waren beschadigd. De intelligentie was nog wel intact, waardoor het leek alsof hij ongeschonden uit dit ongeval kwam. Bij dit frontaalsyndroom is iemand emotioneel erg onstabiel en maakt diegene grammaticaal gezien veel gebruik van losse woorden. Ook heeft men dan moeite met plannen en het vasthouden van hun motivatie. Een oplossing die een tijd is gebruikt voor dit syndroom is frontale lobotomie. Hierbij werd de frontale kwab nog meer beschadigd door een staafje via het oog. Dit verergerde juist een aantal problemen. Zo werd men emotioneel een stuk vlakker, het vloeken en agressief gedrag verdwenen. Het tast flexibiliteit en initiatief aan, men ging bang in een hoekje voor zich uit staren.
In de loop der tijd is de definitie aangepast en momenteel noemt men het een disexecutief syndroom. Dit omdat de problemen ook kunnen optreden als er een ander deel van de hersenen is aangetast. Het syndroom kan in twee delen worden gesplitst, namelijk:
Hot executieve functies: Gedrag en emoties (boosheid, impulsiviteit, depressie, suïcidale neigingen)
Cool executieve functies: Cognitief (planning, werkgeheugen, aandacht)
Het meten van executieve functies
Er zijn een aantal taken ontwikkeld om executieve functies te kunnen meten. Allereerst kennen we de Wisconsin Card Sorting Test (WCST). In deze test verandert de regel voor het neerleggen van de kaarten. Bij problemen bij executieve functies leert men de regel wel, maar kan men geen nieuwe regel leren. Jonge kinderen hebben dit ook. Een andere test is de STROOP Test. Hierbij noemt met de kleuren waarin de woorden gedrukt staan, maar niet de te lezen woorden. Kleinere kinderen kunnen dit erg makkelijk aangezien zij nog niet (goed) kunnen lezen. Lezen is zo’n ingesleten vaardigheid, dit kun je bijna niet onderdrukken. Toch moet elke volwassen persoon dit kunnen. De Trail Making Test is ook een manier om executieve functies te meten. Bij deze test moet men kunnen wisselen tussen het alfabet en de cijfers. Hierbij wordt gekeken of je flexibel kunt switchen. Bij de Tower of London krijg je een houten plankje met drie staafjes en drie balletjes voor je. Men mag maar één balletje per keer verplaatsen. Deze test meet planning en impulsiviteit. Wanneer iemand niet goed nadenkt, doet diegene meteen een eerste zet. Dit doen kinderen en volwassenen met problemen bij executieve functies.
Een nadeel van deze tests is dat het verschillende vaardigheden meet. Als iemand goed scoort is dit niet zo erg, maar wanneer iemand laag scoort, weet men niet wat er nu precies aan de hand is. Vroeger werd gedacht dat de frontale kwab zo flexibel is dat deze functioneert als één geheel. Nu komt de vraag op of dit wel zo is. Het is inderdaad flexibel, maar er zijn wel gebieden te onderscheiden. De ene patiënt is de ander niet. Tegenwoordig gaan wij steeds meer nadenken over de verschillende processen (Baddeley, 1996 en Miyake et al., 2000) in plaats van een enkelvoudige structuur van executieve functies (Norman & Shallice, 1986). De volgende drie vaardigheden zijn goed te meten en onderscheiden:
Inhibitie (onderdrukken van een dominante respons)
Shifting (wisselen tussen verschillende regels)
Updating (opslaan en monitoren van informatie in het werkgeheugen)
Baddeley heeft dat geplaatst binnen het werkgeheugensysteem. De vorige drie vaardigheden zijn onderdeel van de central executive en sturen de phonological loop en het visuospatial sketchpad aan.
Met behulp van de Simon Task is inhibitie te meten. De STROOP Taak is een hele bekende, maar is nog niet af te nemen bij kinderen. Bij de Simon Task tikken de deelnemers met de linkerhand wanneer zij een muis zien en met de rechterhand wanneer zij een draak zien. Shifting is te meten met behulp van Animal Shifting. Wanneer de deelnemers een gele achtergrond zien, benoemen zij het fruit en wanneer de deelnemers een paarse achtergrond zien, benoemen zij het dier. Met behulp van de Keep Track is updating te meten. Hier krijgt de deelnemer een serie plaatjes te zien en benoemt elk plaatje. De deelnemer moet het laatste dier en de laatste vorm onthouden.
Een probleem bij deze taken is het impurity problem (onzuiverheidsprobleem). Het blijft lastig te zeggen waar het probleem ligt. Dit is eigenlijk niet te vermijden. Bronnen van taakonzuiverheid zijn:
Encoderen (snelheid: visueel, verbaal)
Respons (motorische- en spreeksnelheid)
Gedurende de hele taak (motivatie, aandacht, afleiding)
Er is dus eigenlijk een impurity remover nodig. Om het probleem deels te verhelpen is factoranalyse nodig. De twee voordelen hiervan zijn:
Verwijdert de impurity, laat de echte score van een deelnemer zien.
Maakt de structuur van executieve functies zichtbaar
Miyake et al. (2000) vonden bij psychologiestudenten een driefactorstructuur. De drie factoren hangen wel samen. Van der Ven et al. (2012) vonden een tweefactorstructuur. Er is een zwakke onderlinge samenhang van inhibitie en shifting met updaten. Aangezien er tegenstrijdige resultaten uit onderzoek komen, wordt er gekeken naar de oorzaak van deze verschillen. Leeftijd, de gekozen taken en de manier van scoren kunnen de verschillende resultaten tot gevolg hebben.
Hersenontwikkeling
De frontale cortex kent een langdurige en trage ontwikkeling. Hoe blauwer de kleuren op de hersenscans, des te dunner is de cortex en des te lager de dichtheid van de grijze stof. De frontale cortex rijpt langzaam, er vindt synaptic pruning plaats (verbindingen tussen de hersencellen nemen af in aantal, alleen de relevante blijven bestaan en worden versterkt) genoemd. De ontwikkeling duurt tot 25 jaar en wellicht zelfs langer. Executieve functies blijven zich dus ook jarenlang ontwikkelen.
Bij jonge kinderen wordt het factorstructuur terug gevonden en op oudere leeftijd niet echt meer. Het kan zijn dat het begint als geïsoleerde gebiedjes die elkaar wederzijds beïnvloeden waardoor het juist meer één geheel wordt. Dit wordt ook wel het mutualisme model genoemd. Het kan ook komen doordat er op een andere manier gemeten is. Bij ouderen wordt er vaak gekeken naar reactiesnelheid, omdat accuratesse niet een onderscheidend kenmerk is. Bij jongere kinderen is dit andersom. We weten wel dat er ontwikkeling plaatsvindt.
Leren
Als je iets leert bevindt je je in een nieuwe situatie. Daar heb je executieve functies voor nodig. Er zijn drie theorieën over leren in combinatie met executieve functies.
Maturational: Het gebied moet rijp genoeg zijn om iets te kunnen toepassen. Sommige kinderen weten wel dat ze iets fout doen, maar hun gedrag is nog niet dominant genoeg om het te kunnen aanpassen.
Interactive specialization: Er zijn wel verschillende gebieden die zelfstandig zijn, maar deze communiceren nog niet goed genoeg. Wanneer ze dit wel doen, kan je leren.
Skill learning: Alles wat je eerst leert is nieuw en komt in de frontale cortex terecht. Wanneer je ergens vertrouwd mee bent geraakt, zullen andere gebieden dit overnemen.
Theorie
Inhibitie heb je nodig voor irrelevante informatie en oude, foute stategieën. Shiften gebruik je om te kunnen wisselen tussen strategieën en updating heb je nodig om de vraag en de deelantwoorden te onthouden. Wanneer je goed bent in het werkgeheugen (updaten) kun je ook goed rekenen. Dit is het sterkste verband tussen rekenen en de executieve functies. Het is extra sterk bij complexe rekenopgaven en verbale werkgeheugentaken. Tussen inhibitie en rekenen is ook een positief verband gevonden. Dit is vooral bij complexe rekenopgaven. Bij shifting is dit bij complexe rekenopgaven en bij jonge kinderen. Er is alleen niet gecorrigeerd voor onderlinge samenhang, er is niet altijd zorgvuldig gemeten (impurity problem).
Strategiegebruik
Kinderen gebruiken in verschillende fases van hun ontwikkeling verschillende strategieën om rekenopgaven op te lossen. Die ontwikkeling verloopt via overlapping waves. De strategieën overlappen elkaar en volgen elkaar niet op. Soms zal het kind ook nog eens terugvallen op een oude strategie.
Dit college wordt gegeven door H. van der Maas, hoogleraar Psychologische Methodenleer.
Dimensioneel versus typologisch
Zijn verschillen in lengte dimensioneel of typologisch? Dimensioneel houdt in combinatie met deze vraag een continue geleidelijke groep mensen in. Er is geen streep te zetten in de normaalverdeling. Typologisch houdt hier een aparte groep in, zoals bijvoorbeeld lilliputters. Hier is de streep wel te zetten.
Factoranalyse
Bij factoranalyse worden relaties tussen veel manifeste variabelen gereduceerd tot enkele latente factoren. Deze analyse is ruim honderd jaar geleden door Spearman ontwikkeld.
Het beantwoordt vragen als ‘Hoeveel factoren heb ik nodig om de relaties in mijn data te verklaren?’, ‘Welke zijn deze factoren (interpretatie)?’ en ‘Hoe goed verklaren deze factoren mijn data?’ Mogelijke problemen van factoranalyse zijn dat factor oplossingen niet uniek zijn, dat interpretatie van de factoren soms lastig is en dat een psychometrische factor nog geen psychologische factor is. Toch is factoranalyse erg populair.
Factoranalyse is een statistische techniek voor de toetsing van theorieën, maar factoranalyse heeft de theorievorming in de psychologie zeer sterk beïnvloed. Theorieën worden aangepast aan onze statistische mogelijkheden. Het heeft namelijk weinig nut om theorieën op te stellen die niet getest kunnen worden.
Er wordt nu gekeken naar nieuwe technieken, zoals categorische latente variabele modellen. Dit is beschikbaar sinds een jaar of 20 (factoranalyse tientallen jaren).Typologische psychologische modellen zijn nu ook testbaar. Er is dus geen technische reden meer om de voorkeur te geven aan een dimensioneel model.
Typologieën
Typologieën zijn kwalitatief, discreet (oorzaak en gevolg) en discontinue. Voorbeelden zijn moreel redeneren, hechtingstypen, persoonlijkheidstypen, psychiatrische stoornissen, geloof en ontwikkelingsstadia. Binnen specifieke domeinen zijn discontinue veranderingen wel denkbaar, zoals bij complexe (niet lineaire) dynamische systemen. Discrete oorzaken kunnen zijn: Beschadigingen (hersenletsel), de genen (gen wel of niet aanwezig), de omgeving (schooltype).
Fase overgangen treden op in complexe systemen. Kleine oorzaken kunnen grote gevolgen hebben. Er is sprake van zelf-organisatie, chaos en catastrofes (fase transities). Deterministische chaos is de gevoelige afhankelijkheid van begincondities. Zelf-organisatie is de schijnbaar spontaan onstaande globale structuren in systemen waarin vele simpele deelsystemen lokaal niet linear interacteren, bijvoorbeeld zwermen. Complexe systemen worden gekenmerkt door kwalitatief verschillende toestanden. Kwantitatieve verschillen zijn alleen maar interessant binnen deze kwalitatieve toestanden. In de natuurwetenschappen wordt onderzoek gedaan naar fase transities. Dit zijn fase overgangen (gas, vloeibaar, vast), instortingen (gebouwen, bruggen) en celdelingen. Hiervoor zijn technieken en modellen ontwikkeld die ook in de sociale wetenschappen toepasbaar zijn. Fase transities kennen enkele criteria, zoals bimodaliteit (in precies dezelfde omstandigheden kan het systeem zich in twee elkaar uitsluitende toestanden bevinden) en hysteresis (wanneer de sprong plaatsvindt hangt af van de geschiedenis van het systeem en de richting waarin de onafhankelijke variabelen veranderen). Multistabiele perceptie is hysteresis in schijnbare beweging.
Het onderscheid in dimensionaliteit (kwantitatief) en typologieën (kwalitatief) is geen kwestie van smaak. Er kunnen goede theoretische redenen zijn voor typologieën. In dat geval kun je gebruik maken van categorische latente variabelen: latente klassen of mixture componenten.
Finite mixture modellen
Finite mixture modellen hebben een discrete latente variabele en een continue observeerbare variabele. De verdeling van data wordt niet beschreven door een verdeling maar door een gewogen som van verdelingen. Een toepassing is voorspellen hoe hoog het water komt (conservatie anticipatie). Parameters van de verdelingen en gewichten moeten zodanig geschat worden dat het mixture model zo goed mogelijk op de data past.
Extensies zijn relatie met andere technieken, andere verdelingen, multidimensionaliteit, non-parametrisch en tijdsafhankelijkheid.
Latente klasse analyse
Latente klasse analyse heeft een discrete laten variabele en een discrete observeerbare variabele. Bijvoorbeeld kinderen worden in twee klassen verdeeld (conserveerders, niet-conserveerders) bij conservatie items. Binnen die klassen zijn de items scores ongecorreleerd, terwijl ze zonder de klassen wel correleerden. Indien er meer dan één groep is, dan is er een goede beschrijving van de data. Per groep wordt de kans op correct en de grootte van de groepen geschat. Om de onafhankelijkheid per klasse te bepalen worden de verwachte waarden uit de itemkansen, een chi-kwadraat en p-waarde berekend. Uitbreidingen zijn restricties (gelijkheid), longitudinaal, polytome items en fitmethoden.
Er wordt momenteel bekeken of het toepasbaar is op data van veel items en of het model op de data past (goodness of fit). In combinatie met de item response theorie wordt er eerst een kwalitatieve indeling in klassen gemaakt en dan een kwantitatieve dimensionele analyse binnen klassen gedaan (Mixed IRT model, mixture factor model).
Conclusies over typologieën
De volgende conclusies kunnen worden getrokken over typologieën:
Psychologen denken vooral in dimensies
Er kunnen belangrijke theoretische argumenten zijn voor een typologie
Kleine (continue) oorzaken kunnen grote (discontinue) gevolgen hebben
De resultaten en methoden van natuurwetenschappelijke onderzoekingen van complexe systemen moeten nog doordringen in de psychologie
Adequate statistische methoden zijn tegenwoordig beschikbaar
Voor continue manifeste variabelen wordt finite mixtures gebruikt
Voor discrete manifeste variabelen wordt latente klasse analyse gebruikt
Het lijkt nuttig om eerst de kwalitatieve verschillen tussen individuen in kaart te brengen en binnen gelijke groepen dimensionele analyses uit te voeren
Mutualism
Latente variabele laat de afhankelijkheden (correlaties) tussen items of (sub)test scores verdwijnen (technisch). Het is de oorzaak van het optreden van een set van gerelateerde gedragingen, zoals scores op tests (inhoudelijk).
De g-factor representeert algemene intelligentie. Wie hoog scoort op test A, scoort meestal ook hoog op test B, de correlaties zijn positief. Factoranalyse op data van een set van cognitieve tests geeft een dominante factor, de g-factor.
Psychometrisch bestaat g. De g-factor verklaart de samenhang in testscores. Tijdens de ontwikkeling beïnvloeden de verschillende cognitieve modules elkaar positief. Mutualisme leidt ook tot positieve correlaties tussen cognitieve testen, maar zonder een latente variabele g. Een psychometrische g impliceert nog geen psychologische g, een psychometrische factor impliceert nog geen psychologische factor. De structuur van individuele verschillen zegt misschien niks over het mechanisme.
Dit college wordt gegeven door D. Borsboom. Hij is gepromoveerd op ‘Conceptuele problemen in het meten’.
Systeem
Bij een feedbackloop zet het ene probleem het volgende probleem aan en dat zet weer het eerste probleem aan. Dit gebeurt ook bij een gokverslaving. Het is een systeemprobleem. Er is geen latente variabele nodig om gokverslaving uit te leggen. De symptomen zijn onderdeel van een causaal systeem. Dit is net als met een zwerm vogels. Bij stoornissen is er ook sprake van een set symptomen die elkaar aanzetten.
Er zijn twee manieren waarop we een netwerk kunnen manipuleren:
Door het netwerk in aanraking te laten komen met stress: activeren en deactiveren van de symptomen
Door de kwetsbaarheid van het netwerk te veranderen: stijgende en dalende connectiviteit sterkte
Verschillen
Alle stoornissen hangen positief samen. Symptomen zijn vaak hetzelfde bij verschillende stoornissen. Je kunt het zien als twee zwermen vogels met een paar vogels in het midden (brugsymptomen). Door het netwerk grijpen symptomen om zich heen. Er is sprake van een hoge comorbiditeit als het dichtbij elkaar staat in het netwerk.
Bij individuele verschillen in netwerken kunnen deze netwerken over elkaar heen worden gelegd voor een gemiddelde structuur. We kunnen ook tijdreeksen combineren met
individuele verschillen in een multilevel VAR model. In een dergelijk model zijn de netwerk parameters willekeurig en hebben ze een spreiding. De spreiding heeft betrekking op achtergrondvariabelen zoals neuroticisme en op experimentele manipulaties. Netwerken kunnen niet alleen verschillen tussen personen maar ook over de tijd. Die veranderingen kunnen worden gerepresenteerd als een film.
De netwerk hypothese is veelbelovend, veelzijdig en biedt vele mogelijkheden voor onderzoek, namelijk:
‘Kinds' versus 'continua' debat
De studie van symptoom dynamiek
Registreren de plaats van de aandoeningen
Netwerken veranderen de manier waarop we denken over 'meten' in de psychopathologie