Samenvatting Artikelen & Reader Testtheorie ARMS - UU (2013-2014)

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


A. Examining the validity and reliability of childhood abuse scales (Brandyberry)

Het doel van dit artikel was de validiteit en betrouwbaarheid bekijken van The Courage To Heal Workbook checklist (CTHC). Dit werkboek is gebaseerd op een deel uit het boek The Courage To Heal. De CTHC wordt vergeleken met de Trauma Symptom Checklist-40 (TSC-40).

In onderzoeken kan gekeken worden naar de begripsvaliditeit. Dit betekent of de test het beoogde abstracte kenmerk meet, zoals een vaardigheid, houding of gedrag. In dit onderzoek is daar sprake van, aangezien de CTHC correleert met de TSC-40 (r = .74) en ook met subschalen van de TSC-40. Ook bevestigen de uitgevoerde t-toets en ANOVA deze begripsvaliditeit.

Naast begripsvaliditeit dient ook gekeken te worden naar betrouwbaarheid. Betrouwbaarheid is de afwezigheid van toevallige invloeden op testscores. Hierbij zou dus, bij een herhaalde meting, hetzelfde resultaat gevonden moeten worden. Deze betrouwbaarheid is te beoordelen door middel van Cronbach’s alpha.

De interne consistentie van de CTHC liet een hoge alpha waarde zien, van .97. Toen de sample gescheiden werd in de klinische groep en niet-klinische groep, waren er nog steeds hoge alpha waarden. Alpha was .97 voor de niet-klinische groep, .96 voor de klinische groep. De waardes voor de TSC-40 waren ook hoog, met .92 voor de gehele sample, .83 voor de klinische groep en .94 voor de niet-klinische groep.

Deze hoge waardes van de interne consistentie bevestigen de betrouwbaarheid van de CTHC en de TSC-40.

In het artikel wordt geen expliciete aandacht besteed aan inhoudsvaliditeit. Inhoudsvaliditeit is de mate waarin het meetinstrument een specifiek (inhoud of kennis) domein representeert. In dit onderzoek zou het instrument inhoudsvalide hebben, als het alle aspecten van misbruik (fysiek, emotioneel, seksueel) representeert. Er wordt hier geen expliciete aandacht aan besteed, omdat inhoudsvaliditeit meer van belang is in de constructiefase van een test. Als de test al geconstrueerd is, zijn de beoordelingen van begripsvaliditeit en criteriumvaliditeit meer van belang.

Kortom, de CTHC is betrouwbaar en valide gebleken, aan te tonen door Cronbach’s alpha en de correlaties met de TSC-40.

 

B. An experimental test of the effect of weight-loss dieting on bulimic pathology (Presnell & Stice)

In dit artikel staat de volgende vraagstelling centraal: ‘Vergroot het volgen van een dieet het risico op boulimische pathologie?’ Hierbij is gebruik gemaakt van twee theorieën over de verwachte resultaten van het onderzoek, namelijk het dietary restraint model en ‘diëten als nabije risico factor’. Op basis van eerder onderzoek wordt uiteindelijk verwacht dat het volgen van een dieet het risico op boulimische pathologie verkleint.

Onderzocht zijn vrouwen van 18-28 jaar, afkomstig uit de gemeenschap en van de universiteit. Er was geen aselecte steekproef, omdat mensen zich vrijwillig aan konden melden. De behandeling is voor iedereen hetzelfde, en is dus gericht op het beantwoorden van de onderzoeksvraag. Doordat de steekproef niet aselect was, mensen zich vrijwillig aan konden melden en het een bepaalde groep van een bepaalde universiteit was, is het onderzoek niet generaliseerbaar. Hiervoor zal herhaalonderzoek nodig moeten zijn.

De twee belangrijkste afhankelijke variabelen zijn ‘boulimische symptomen’ en BMI. De boulimische symptomen zijn geoperationaliseerd met behulp van de Eating Disorder Examination (EDE). BMI is geoperationaliseerd met een legentemeting en digitale gewichtsmeting.

Dit betreffende onderzoek is een praktijkgericht onderzoek. Om verschillende redenen, namelijk: de verwachte resultaten worden vanuit een theorie voorspeld, er is een praktische toepassing van de behandeling en er is een selecte onderzoeksgroep. Het onderzoek kan getypeerd worden als gelokaliseerd. Dit omdat er sprake is van een selecte groep onderzochten en de behandelaars.

Diverse alternatieve verklaringen kunnen de interne validiteit van een onderzoek beïnvloeden. Onderzoekers kunnen de interne validiteit vergroten door rekening te houden met deze alternatieve verklaringen of ze uit te sluiten. In dit onderzoek worden door middel van de onderzoeksopzet diverse verklaringen uitgesloten, namelijk externe voorvallen, persoonsgebonden veranderingen, testeffecten, instrumentverval, selectie, compensatie en andere verklaringen. De onderzoekers bieden wel extra aandacht aan één alternatieve verklaring, namelijk uitval. Dit wordt namelijk genoemd bij de resultaten, hoeveel mensen er per tijdsmoment uitgevallen zijn.

De conclusie die de onderzoekers uiteindelijk trekken is dat ze diëten succesvol gemanipuleerd hebben, aangezien de deelnemers gewicht verloren tijdens het lage calorieën-dieet. Dit spreekt het restraint model dus tegen, aangezien diëten resulteert in verlaagde boulimische symptomen.

 

C. Adolescent Autonomy: Characteristics and Correlates (Noom)

In dit onderzoek wordt gekeken naar de ontwikkeling van autonomie bij jongeren. Hierbij wordt gefocust op 3 vormen van autonomie, namelijk attitudinal autonomy, emotional autonomy en functional autonomoy. Vanuit deze punten wordt gekeken naar de bijdrage van individuele en sociale factoren aan deze autonomie.

Attitudinal autonomy gaat over het cognitieve proces van doelen formuleren door kansen, verlangens en wensen te evalueren. Dit is terug te vinden in de perceptie van competentie bij besluitvorming. Emotional autonomy is het affectieve proces van vertrouwen om deze doelen individueel te formuleren, onafhankelijk van peers en familie. Functional autonomy gaat om het regelproces om een strategie te ontwikkelen, over het bereiken van de gestelde doelen.

De individuele factoren waarnaar gekeken wordt, zijn fysieke ontwikkeling en algemene gedragstendentie (temperament). Familie kenmerken waarnaar gekeken wordt zijn opvoeding, hechting en gezinssamenhang. Daarnaast wordt ook gekeken naar externe familie kenmerken, namelijk hechting aan peers.

In het onderzoek zijn 400 adolescenten onderzocht, waarvan 199 jongens en 201 meisjes. Het waren allen leerlingen van het voortgezet onderwijs, en de gemiddelde leeftijd was 15 jaar. De gegevens voor het onderzoek zijn verzameld met vragenlijsten bij de betreffende adolescenten en hun ouders.

De afhankelijke variabelen in het onderzoek zijn attitudinal autonomy, emotional autonomy en functional autonomy. Deze hebben allen een interval meetniveau, aangezien er scores samengevoegd zijn.

Noom voert in zijn onderzoek factoranalyses uit, om het aantal predictoren te reduceren. Deze factoranalyses maakt het mogelijk om informatie van de vader, moeder en adolescent in dit onderzoek te combineren tot scores voor de bepaalde kenmerken. Naast de factoranalyses is ook een 2x2 variantieanalyse uitgevoerd, waarbij gekeken is naar de factoren leeftijd en sekse.

Uit de resultaten kan geconcludeerd worden dat individuele kenmerken, familie en peers samen een rol spelen in de ontwikkeling van autonomie.

 

D. Heuristic training and performance in elementary mathematical problem solving (Hohn & Frey)

In het onderzoek van Hohn en Frey wordt gekeken naar het proces van begrijpen en oplossen van woordproblemen. Hiervoor hebben zij een strategie ontworpen, namelijk SOLVED. Hun vraagstelling was hierbij of de SOLVED methode meer effectief is bij het aanleren van oplossen van wiskundige problemen, in vergelijking met een traditionele procedure.

Het gaat in dit onderzoek om een quasi experiment, aangezien er gebruik gemaakt wordt van bestaande groepen.

Om de vraagstelling te beantwoorden zijn proefpersonen geselecteerd uit diverse klassen, 2 klassen per niveau. Één klas van elk niveau werd random geselecteerd voor de SOLVED methode, de andere klas was controle. De steekproef van de klassen was klein. Doordat de leerlingen niet aselect gekozen zijn en het gaat om bestaande klassen in een school, zijn de generalisatiemogelijkheden zeer klein. De resultaten zijn niet te generaliseren naar andere leerlingen. Ook de resultaten over de onderzochte leerkrachten zijn niet generaliseerbaar. Er zijn weinig klassen in het onderzoek en dus ook weinig leerkrachten. Daarnaast is het effect van de leerkracht waarschijnlijk heel groot, maar worden de kenmerken van deze personen bijna niet beschreven. Hierdoor zijn de resultaten niet generaliseerbaar. Door al deze selecties is het onderzoek gelokaliseerd, en zijn de resultaten alleen van toepassing op dit onderzoek.

In het onderzoek kregen docenten een voorbeeld les van SOLVED te zien. Ze kregen aangeleerd hoe ze deze procedure aan de leerlingen uit moesten leggen. Deze leerkrachten zijn geobserveerd bij het geven van hun lessen en er zijn pretest en posttest afgenomen bij de leerlingen.

De kwaliteit van dit onderzoek is op twee manieren te beoordelen, vanuit gelokaliseerd of generaliserend perspectief. Vanuit het gelokaliseerde perspectief kan geconcludeerd worden dat leerlingen die gebruik maakten van de SOLVED methode meer vooruitgaan boekten dan de leerlingen met de traditionele methode. Vanuit generaliserend perspectief kan echter geconcludeerd worden dat de vraagstelling onbeantwoord is gebleven en nog niet bekend is of SOLVED algemeen werkzaam is.

 

 

E. Effects of chat-based on-line cognitive behavior therapy on study related behavior and anxiety (Rassau & Arco)

Dit onderzoek gaat over de effecten van chat-gebaseerde online cognitieve gedragstherapie op studie gerelateerd gedrag en angst. Het doel van deze studie is het effect tussen deze twee variabelen.

Er is gebruik gemaakt van een single participant multiple baseline design. Dit houdt in dat er maar één participant deelnam, in dit geval een vrouwelijke student van 22 jaar, single en sociale wetenschappen student. De onderzoeker was in dit geval ook de therapeut, gebruik makend van zijn diploma in klinische psychologie.

Drie vormen van studie gedrag werden gemeten, namelijk uren per dag aan de studie, dagelijks aantal van gelezen pagina’s en het dagelijks aantal punten voor de kwaliteit van aantekeningen maken. Dit laatste werd beoordeeld aan de hand van een methode, die duidelijke criteria stelt.

Naast studiegedrag werd angst gemeten. Dit beoordeelde de participant zelf, aan de hand van ‘laag, gemiddeld, hoog’ in cijfers.

In de online cognitieve gedragstherapie chat-sessies bespraken de therapeut en de participant diverse dingen. Voornamelijk bestond het uit het adviseren van de participant over hoe angst ontstaat, en hoe het aan gedachtes en gebeurtenissen is gelinkt. Ook wordt verteld over de basis van cognitieve gedragstherapie, uitgelegd wordt hoe je studiedoelen en strategieën maakt en hoe je je eigen gedrag beoordeelt. Tot slot wordt een aantal basisstrategieën voor het verkleinen van studie-gerelateerde afleidingen en angsten uitgelegd.

De resultaten van dit onderzoek laten zien dat chat-gebaseerde online cognitieve gedragstherapie de range van positief studiegedrag verhoogt, en angst verlaagt naar gemiddelde of stabiele niveaus. De resultaten lijken vergelijkbaar met voorgaand onderzoek naar dit onderwerp.

 

F. Early indicators of child abuse and neglect (Powell)

Doel van dit onderzoek was het bereiken van een consensus over welke factoren een mogelijke voorspeller van kindermishandeling zijn. Deze studie heeft geprobeerd een originele contributie te doen aan de kennis van kinderbescherming, door de Delphi techniek te gebruiken.

De Delphi techniek is een serie van vragenlijsten, ook wel rondes genoemd. Tussen elke ronde zit feedback van een expert panel. Deze techniek wordt gebruikt bij situaties waarin individuele oordelen beoordeeld en gecombineerd moeten worden, om een incomplete kennis te voorkomen. Het grootste verschil met andere technieken is de feedback tussen de rondes door.

De eerste ronde was een open en ongestructureerde vragenlijst, die vooral gericht was op algemene data. Deelnemers werden gevraagd om te indiceren welke kenmerken zij zouden beschrijven als mogelijke vroege predictoren van kindermishandeling.

De tweede ronde bestond uit 73 kenmerken, gekozen en beoordeeld uit de eerste ronde, waarbij de participanten hun mening moesten geven.

De derde ronde was een gemodificeerde versie van de tweede ronde. Het grote verschil is de integratie van individuele en statistische reacties van de tweede ronde.

Uit de resultaten bleek dat van de 73 items uit het onderzoek, er 46 consensus bereikt hadden. Vier bereikten een consensus van onenigheid, en de overige 23 items faalden om consensus te bereiken.

De kenmerken van mogelijke vroege predictoren van kindermishandeling en verwaarlozing die door de deelnemers geïdentificeerd zijn, houden verband met veel gebieden van de gezondheid van kinderen, hun ontwikkeling en ouderschap. Er is uiteraard overlap gevonden tussen mogelijke predictoren en risicofactoren. Dit wordt ook bemoeilijkt, doordat er geen duidelijke definitie van beide factoren is.

Dit onderzoek beschrijft een Delphi studie, gebaseerd op de expertise van de Britse kinderbescherming en academici, die plaats hadden in het panel. Een poging is gedaan om consensus te bereiken over indicatoren van kindermishandeling en verwaarlozing. Dit is grotendeels gelukt, met limitaties van het onderzoek, betreffende de doelgroep en de omvang.

 

 

Hoofdstuk 1

De klassieke testtheorie gaat ervan uit dat testscores niet alleen een afspiegeling zijn van datgene wat men probeert te meten, maar ook van allerlei andere, niet bedoelde, factoren. Met andere woorden, als men een test afneemt maakt men fouten in de meting. Men maakt onderscheid tussen twee soorten meetfouten: de toevallige, onsystematische meetfout en de systematische meetfout. Toevallige meetfouten zijn fouten die niet met de test samenhangen, maar toevallig optreden. Het is onsystematisch, ook wel random meetfout genoemd. Door toevallige omstandigheden zullen de resultaten bij een tweede keer testen anders zijn. De betrouwbaarheid van een test zegt iets over de grootte van de toevallige meetfout. Systematische meetfouten zijn fouten die gerelateerd zijn aan de test. Elke keer als de test wordt afgenomen treden dezelfde fouten weer op. De validiteit van een test zegt iets over de mate waarin er systematische meetfouten worden gemaakt. De systematische meetfout heeft geen invloed op de betrouwbaarheid van een testscore. Men kan immers heel betrouwbaar, dat wil zeggen zonder toevallige meetfout, heel systematisch iets meten waarin men eigenlijk niet geïnteresseerd is. Anderzijds impliceert een lage betrouwbaarheid ook een lage validiteit. Als men immers veel toevallige meetfouten maakt, kan de meting nooit valide zijn. Een valide meting betekent immers dat men meet wat men wilde meten en als men steeds verschillende resultaten krijgt kan dit niet het geval zijn.
Klassieke testtheorie: X (testscore) = T (true score) + E (error). De ware score T bestaat uit 2 delen. Enerzijds uit datgene wat de test beoogt te meten, maar anderzijds ook uit de systematische meetfout.
Problemen bij het herhalen van een test: Zo zal de respondent zich bijvoorbeeld bij de tweede en volgende afnamen nog antwoorden herinneren van de voorgaande keer/keren. Daardoor zijn de afnamen niet onafhankelijk van elkaar en wordt de systematische component overschat. Aangezien de toevallige meetfout bij verschillende afnamen van een test bij dezelfde persoon onafhankelijk van elkaar zijn en dus soms positief en soms negatief uitvallen, heffen ze elkaar bij een groot aantal metingen op. Aldus zal de gemiddelde testscore gelijk zijn aan de ware score van de respondent. De afwijking van een bepaalde testscore van dit gemiddelde is de toevallige meetfout. Hoe meer de testscores van verschillende metingen bij dezelfde persoon van elkaar verschillen, hoe groter de toevallige meetfouten en hoe lager de betrouwbaarheid. De spreiding rond het gemiddelde in een grafiek zegt iets over de betrouwbaarheid van de test. De verdeling van de toevallige meetfouten heeft altijd een gemiddelde van 0. De verwachte waarde van de meetfout is dus gelijk aan 0. De verdeling van de toevallige meetfouten heeft een standaardafwijking die gelijk is aan de standaardafwijking van de geobserveerde scores. Deze standaardafwijking wordt de standaardmeetfout (standard error of measurement) genoemd. De standaardmeetfout (SE) is een maat voor de nauwkeurigheid van de meting. Bij de klassieke testtheorie gaan we ervan uit dat de standaardmeetfout voor alle personen identiek is.
Bij onderzoek naar de hele populatie: De spreiding in de testscores (figuur 1) is op te splitsen in een systematisch deel (Figuur 2) en een toevallig deel (Figuur 3) . Het systematische deel (ware score variantie) is dat deel van de spreiding in testscores dat daadwerkelijk het gevolg is van verschillen in ware scores van de proefpersonen. Het toevallige deel is het gevolg van de meetfouten van de proefpersonen. Onder de aanname dat de meetfouten van alle personen in de populatie afhankelijk zijn van de ware scores, geldt het volgende voor de variantie in testscores: (Figuur 4)
De betrouwbaarheid (Figuur 5) van een test is gedefinieerd als: (Figuur 6)
De betrouwbaarheid van een test is dus gelijk aan dat gedeelde van de totale variantie van de testscores in de populatie dat door systematische invloeden is veroorzaakt. Het is het aandeel van de ware score variantie van de testvariantie. Echter, Aangezien we in de praktijk alleen beschikken over de geobserveerde scores bij een groep respondenten en nooit over de tweedeling in een systematisch en een toevallig deel, kunnen we de betrouwbaarheid nooit precies bepalen.

De standaardmeetfout (Figuur 7) van een testscore is een maat voor de nauwkeurigheid van de meting van het te meten begrip. Als er op basis van een testscore belangrijke beslissingen voor het individu op het spel staan, is een nauwkeurige meting zeer wenselijk. De standaardmeetfout kan worden afgeleid uit de 2 formules hierboven. Je kan de formule van betrouwbaarheid echter ook anders formuleren: (Figuur 8) of (Figuur 9)
Als je deze formule invult bij de formule over variantie in testscores, krijg je: (Figuur 10) of ook wel (Figuur 11)
Met de laatste formule is het makkelijk de standaardmeetfout te berekenen. Je berekent de standaardmeetfout door de wortel uit de errorvariatie (Figuur 3) te trekken: (Figuur 12)
Hieruit kun je afleiden dat als je de betrouwbaarheid (Figuur 5) van een test goed kunt schatten en je hebt de standaardafwijking van de testscores (Figuur 13), je ook de standaardmeetfout kunt schatten.

De betrouwbaarheid bij 2 testafnamen schatten:
1. Test-hertestmethode: Dezelfde test tweemaal bij een groot aantal respondenten afnemen. Er moet vanuit gegaan kunnen worden dat de eerste meting niet van invloed is op de resultaten van de tweede meting. Door middel van een correlatie kan men dan de betrouwbaarheid van de test schatten. De correlatiecoefficient r voor 2 variabelen (vb. 2 testscores) kun je ook interpreteren als de gedeelde variantie van 2 variabelen. Omdat toevallige meetfout nergens mee correleert, geeft een correlatiecoëfficiënt de samenhang aan tussen de systematische delen van de testscores van de twee afnamen. Hoe meer toevallige meetfouten, hoe zwakker de correlatie en hoe lager de betrouwbaarheid. We kunnen de betrouwbaarheid van een testscore definieren als: (Figuur 14)
Het meet de totale variantie dat door systematische fouten wordt veroorzaakt en kan dus geschat worden met de correlatie tussen de testscores X en de hertestscores X’. De berekende correlatie noemen we ook wel de stabiliteitscoëfficiënt of test-hertestcoëfficiënt. Nadeel van deze techniek: De eerste meting mag niet van invloed zijn op de resultaten van de tweede meting en dit is in de praktijk bijna onmogelijk. Ze kunnen antwoorden van de eerste test onthouden, waardoor de correlatie hoger uitvalt. Dit kan opgelost worden door een lange tijd tussen de testen, maar dan loop je weer het risico dat de ware scores van de respondenten zijn veranderd door persoonlijke ontwikkeling. Aangezien alle verschillen tussen de testscores en de hertestscores als toevallige meetfouten worden beschouwd, valt de correlatie lager uit dan de betrouwbaarheid in werkelijkheid is. 2. Paralleltest methode: Om het probleem van de tijdsperiode tussen de twee afnamen van dezelfde test op te lossen, kan men ook twee zeer op elkaar gelijkende tests (paralleltests) afnemen. Aangezien er dan bij afname van de twee tests minder een herinneringseffect kan optreden, kunnen de tests binnen redelijk korte termijn worden afgenomen. De tests testen dezelfde inhoud, maar bestaan uit verschillende testvragen. Voor de score op paralleltests geldt dat het aandeel van de ware score voor elke respondent in principe gelijk is (Figuur 15). Ook hier kan de betrouwbaarheid geschat worden door de correlatie tussen de testscore X en de parallelle testscore X’ te berekenen. Door afwijkingen van perfecte parallellie zal de correlatie echter meestal niet precies de betrouwbaarheid aangeven. De correlatie heeft dan meestal een onderschatting van de ware betrouwbaarheid. De formule voor de schatting van de betrouwbaarheid met paralleltest methode is: waarin (Figuur 17). De berekende corralatie noemen we ook wel de equivalentiecoëfficiënt. We gaan ervan uit dat het gemiddelde op beide test even hoog is, anders zijn het niet strikt parallelle tests. Nadeel van deze techniek: Het is onmogelijk precies dezelfde tests te maken. Aangezien de verschillen tussen de tests worden beschouwd als toevallige meetfouten, valt de betrouwbaarheid iets lager uit dan dat deze in werkelijkheid is. De problemen die zich voordoen bij de schatting van de betrouwbaarheid door meerdere tests af te nemen, probeert men op te lossen door de betrouwbaarheid te schatten terwijl men maar één test afneemt.

3. Split-halfmethode: Er wordt eenmalig een test afgenomen bij alle respondenten, maar voor de schatting van de betrouwbaarheid wordt de test in twee zoveel mogelijk op elkaar gelijkende delen gesplitst. Tussen deze twee delen wordt dan de correlatie berekend. Om met de split-halfmethode een goede schatting van de betrouwbaarheid te krijgen dient aan een aantal voorwaarden te zijn voldaan. De eerste voorwaarde is dat de inhoud van beide testdelen geheel moet overeenkomen (anders onderschatting van de betrouwbaarheid, omdat de ware verschillen tussen de testdelen als toevallige meetfouten worden beschouwd). Hierbij is niet alleen de inhoud van de testvragen belangrijk (evenveel vragen over elk onderwerp), maar ook de moeilijkheid van de vragen. Bij een prestatietest waarbij de antwoorden goed of fout zijn, wordt de moeilijkheid van een testvraag (item) uitgedrukt in de proportie p respondenten die de vraag goed hebben beantwoord. Hoe hoger de p hoe makkelijker het item. Bij testvragen waarbij men ook punten krijgt als men een gedeelte van de vraag goed heeft beantwoord is de bepaling van de moeilijkheid lastiger. De vragen moeten ook op eenzelfde soort volgorde geplaatst worden, zodat de antwoorden niet kunnen verschillen door bijv. vermoeidheid. Nadeel van deze techniek: Het is lasitg 2 vergelijkbare testhelften te verkrijgen. De afhankelijkheid van deze verdeling voor de schatting van de betrouwbaarheid is het grootste nadeel van deze methode om de betrouwbaarheid te schatten. Voor de schatting van de betrouwbaarheid is het niet voldoende om de correlatie tussen de 2 testhelften te berekenen. Een test wordt namelijk betrouwbaarder als de test langer wordt. De correlatie die we moeten toepassen ziet er als volgt uit: (Figuur 18). Hierbij is '(Figuur 19) de correlatie tussen de 2 testhelften. Als de correlatie bijv. 0.50 is, is de schatting voor de betrouwbaarheid van de gehele test gelijk aan: (Figuur 20)

4. Cronbach’s alfa: Als men een test op alle mogelijke manieren in 2 delen splitst en de daarbij behorende betrouwbaarheden schat, dan is het gemiddelde van deze betrouwbaarheden gelijk aan Cornbach’s alfa. Het is een schatting van de betrouwbaarheid die gebaseerd is op de interne consistentie van de test. Hiermee wordt de samenhang tussen de items van een test bedoeld. Als de items in een test dezelfde inhoud dekken, hangen de itemscores posities met elkaar samen. Een negatieve samenhang tussen 2 items zou immers betekenen dat hoe groter de kans is dat je de ene vraag hoed hebt, hoe groter de kans dat je de andere vraag fout hebt. Dit is niet voor de hand liggend als de items over dezelfde inhoud gaan en moet dus voorkomen worden.
De rekenformule is: (Figuur 21) met (Figuur 22)
De variantie van de totale test is gelijk aan de som van alle varianties van de afzonderlijke items, plus alle covarianties (covariantie is een maat voor de samenhang van de scores op 2 items) tussen de items: (Figuur 23) Als we naar de 2 formules kijken, kunnen we concluderen dat hoe hoger de covariantie tussen alle items, hoe groter de term (Figuur 1), en dus hoe kleiner de term (Figuur 24) en hoe groter de term (Figuur 25) en dus hoe groter de alfa. Als de items uit een test dus positief met elkaar samenhangen (covarieren), verkrijgt men een hoge alfa. Voor belangrijke beslissingen op individueel niveau is de betrouwbaarheid onvoldoende met r < .80, voldoende met .80 < r > .90 en goed met r > .90. Voor minder belangrijke beslissingen op individueel niveau is de betrouwbaarheid onvoldoende met r < .70, voldoende met .70 < r > .80 en goed met r > .80.
Voor onderzoek op groepsniveau is de betrouwbaarheid onvoldoende met r < .60, voldoende met .60 < r > .70 en goed met r > .70.

Voor situaties waarbij items dichotoom gescoord zijn (vb. vragen met antwoordcategorien), bestaat er een variant op de formule voor Cronbach’s alfa, namelijk KR-20: met (Figuur 27)
Het product (Figuur 28) is de variantie van een dichotome itemscore emt de waarden 1 (=goed antwoord) en 0 (=foutief antwoord). Als je een schatting wilt hebben van de betrouwbaarheid van een test met uitsluitend dichotome items kun je Cronbachs alfa laten uitrekenen. De Cronbachs alfa is in dat geval gelijk aan de KR20.

Drie factoren zijn van invloed op de betrouwbaarheid van een test (maar hangen niet samen met de inhoud van de vragen); Lengte van de test, samenstelling van de respondenten en de tijdsduur waarbinnen de test moet worden ingevuld.
1. Lengte van de test: De invloed van de testverlenging kan worden bepaald met de Spearman-Brownformule voor testverlenging:
(Figuur 29) met (Figuur 30)
Als v (verlengingsfactor) groter is dan 1 is er sprake van een testverlenging en zal de betrouwbaarheid toenemen, mits het een aanvulling met gelijkwaardige items betreft. Bij een testverkorting is v kleiner dan 1 en zal de betrouwbaarheid van de testscore afnemen. De verlengingsfactor kan met de volgende formule worden berekend: (Figuur 31) waarin k’ het nieuwe aantal items is in de test en k het oorspronkelijk aantal items in de test.
2. Samenstelling van de respondenten: Hoe meer heterogeen de groep met betrekking tot het kenmerk dat men wil meten, hoe hoger de betrouwbaarheidsschatting. Er is in een heterogene groep immers veel variantie in de ware scores en dan is het aandeel van de variantie van de toevallige meetfout relatief klein. Neemt men dezelfde test af bij een homogenere groep respondenten, dan blijft de variantie van de toevallige meetfout hetzelfde. De variantie in ware scores neemt dan af en daarom is het aandeel van de ware scores in de totale testvariantie kleiner en daaruit volgt dat de betrouwbaarheidsschatting lager zal zijn.
3. De tijdsduur waarbinnen de test moet worden ingevuld: Als iedere respondent voldoende tijd heeft om de test in te vullen, komt de verkregen testscore overeen met de ware score van de respondent plus een toevallige meetfout. Als respondenten de test niet afkrijgen en als niet ingevulde testvragen als foutief worden beoordeeld, dan wordt de betrouwbaarheid van zo’n test niet correct geschat. Als men de test-hertestmethode gebruikt voor een betrouwbaarheidsschatting dan is het gevolg van de ontbrekende antwoorden (waaraan voor die respondenten dezelfde score wordt toegekend) een te hoge correlatie tussen de vragen waaraan sommige respondenten niet zijn toegekomen. De betrouwbaarheid van de hele test wordt dan overschat. Als respondenten de vragen waar men niet aan toe komt willekeurig invullen (gokken) dan leidt dit tot een onderschatting van de betrouwbaarheid. Voor de groep respondenten waarvoor dit geldt, is de correlatie tussen de items dan immers laag.

 

 

 

 

 

 

 

Hoofdstuk 2

Een score van een persoon op een test kunnen we opdelen in een systematisch deel en een toevallig deel. Het toevallige deel (toevallige meetfout). Het toevallige deel moet zo klein mogelijk zijn. Het systematisch deel van een testscore bestaat uit 2 delen; een bedoeld deel (daadwerkelijke score) en een onbedoeld deel (de systematische meetfout). Een voorbeeld van een systematische fout is als je een rekenopdracht niet snapt en dus elke som automatisch verkeerd doet.

Bij validiteit gaat het om het bedoelde deel in de testscore. Een test is valide als het bedoelde deel van de testscore groot is en de test dus daadwerkelijk datgene meet waarvoor de test is ontwikkeld. Afhankelijk van het doel van de validatie kunnen verschillende soorten validiteit worden onderscheiden. We bespreken hier 3 typen validiteit; inhoudsvaliditeit, begripsvaliditeit en criteriumvaliditeit.
1. Inhoudsvaliditeit: Hier gaat het om hoeverre de inhoud van de test het gehele kennis-, gedrags-, of vaardigheidsdomein representeert. Als bijv. een tentamen inhoudsvalide is, dekken de vragen de gehele stof. Dit betekent dat als iemand een tentamen heeft gehaald, we er vanuit kunnen gaan dat deze persoon niet alleen die opgaven beheerst die op het tentamen aan de orde zijn geweest, maar de gehele stof waarop het tentamen is gebaseerd. De vragen in de test zijn een ‘steekproef’ van alle mogelijke vragen uit het domein waarover de testscore een uitspraak doet. Of die steekproef van vragen een goede representatie vormt van het gehele kennis-, of vaardigheidsdomein is een vraag naar de inhoudsvaliditeit van een test.

De bepaling van de inhoudsvaliditeit valt onder te verdelen in een viertal fases. In de eerste fase wordt het domein gedefinieerd waarin men is geïnteresseerd. De tweede fase bestaat uit de selectie van een aantal deskundigen op dit domein, die in de derde fase items moeten matchen met het gekozen domein. In de vierde fase worden de resultaten van het matchen geanalyseerd. De beoordeling van matching door deskundigen is niet objectief en absoluut. Vandaar dat het goed is met meerdere beoordelaars te werken. De mate waarin deskundigen het eens zijn is dan ook onderwerp van onderzoek naar inhoudsvaliditeit.

Bij het uitvoeren van een onderzoek naar de inhoudsvaliditeit is er een aantal problemen en vragen dat zich voordoet:
- Bij de bepaling van het domein kan men zich afvragen of de deelgebieden moeten worden gewogen naar hun belangrijkheid. Als dat zo is, hoeveel belangrijker is dan het ene deelgebied vergeleken met het andere?
- Bij de matching van de vragen en het domein kan men zich afvragen: Hoe structureer je deze matching? (Mogen de beoordelaars bijvoorbeeld alleen zeggen of een vraag al dan niet bi het domein of doel past, of mogen ze gradaties aangeven? Je kunt dan denken aan beoordeling op een 5-puntenschaal met 1 als indicatie voor slechte match en 5 voor een perfecte match).
- Welke aspecten van de vraag moeten worden beoordeeld. Behalve de inhoud van een vraag is kan ook de vraagvorm (open vraag, meerkeuze vraag), de complexiteit van de vraag (vragen die een beroep doen op een of meerder vaardigheden), format van de vragen (schriftelijke of mondelinge vraag en antwoord) bepalend zijn voor de inhoudsvaliditeit. De vraagvorm moet immers aansluiten bij de populatie waarvoor de test bedoeld is. Bij de afname van een rekentest zal men rekening moeten houden met de manier waarop de leerlingen het hebben aangeleerd.
- Het beoordelen is een tamelijk subjectief proces. Enige kwantificering is wenselijk. Er zijn verschillende mogelijkheden. We kunnen kijken naar het percentage vragen dat bij het domein past of, als niet alle deeldomeinen even belangrijk zijn, naar bijvoorbeeld een gewogen percentage vragen dat bij die deeldomeinen past. Als items in een test door meerdere beoordelaars worden beoordeeld kunnen we de mate van overeenstemming in de beoordeling gebruiken als een indicatie voor de inhoudsvaliditeit van de test (Cohens kappa is hiervoor een maat).

2. Criteriumvaliditeit: Hierbij onderzoekt men in hoeverre de testscore een voorspeller is van niet-testgedrag (verleden, heden, toekomst). Het gaat daarbij om de voorspelling van een criterium (gedrag of een prestatie) buiten de testsituatie. Maar in hoeverre maakt de test daadwerkelijk een voorspelling mogelijk? Het gaat om de correlatie tussen de testscore en het criterium waarin men is geïnteresseerd. Deze correlatie noemt men de (criterium)validiteitcoëfficiënt van de test. Hoe hoger de correlatie, des te hoger is de validiteit van de test. Inhoudelijk hoeft de test niet verwant te zijn met het criterium. Zo kan bijvoorbeeld een theoretische test (bijv. theoretisch rijexamen) een goede voorspeller zijn voor actief gedrag (bijv. rijvaardigheid). Bij criteriumvaliditeit kan het gaan om een voorspelling van een criterium dat tegelijkertijd optreedt. Het kan ook gaan over gebeurtenissen die in de toekomst liggen, bijvoorbeeld geschiktheid voor een baan of opleiding. Het kan ook de samenhang met gebeurtenissen of toestanden uit het verleden betreffen, bijvoorbeeld een bepaalde traumatische ervaring in het verleden.

Voor het beoordelen van de criteriumvaliditeit gaat men na of theoretisch veronderstelde (sterke) samenhang ook in geobserveerde gegevens wordt teruggevonden. Een goede voorspelling of schatting van een criterium op basis van testscores is mogelijk bij een sterk verband tussen de testscores en het criterium. Bij een geobserveerd zwak verband tussen testscore en criterium beoordeelt men de test als niet criteriumvalide. De test meet blijkbaar niet wat bedoeld is om te meten. Het geobserveerde zwakke verband kan echter ook andere oorzaken hebben. Een drietal mogelijke alternatieve verklaringen voor afwezigheid van een verwachte samenhang bespreken we hier.
- Oorzaak 1: Lage betrouwbaarheid van de test: Als een test een lage betrouwbaarheid heeft, kan de validiteit niet hoog zijn, want de testscore komt dan voornamelijk door meetfouten tot stand. De relatie tussen de betrouwbaarheid van metingen en de validiteitcoëfficiënt kan worden weergegeven in een formule:
(Figuur 32) met (Figuur 33)
Uit deze formule valt af te lezen dat de validiteit nooit hoger kan worden dan het product van de wortels van de betrouwbaarheden van X en Y. Dat wil dus zeggen dat als de betrouwbaarheden waarmee X en Y gemeten zijn, laag zijn, bijv. 0.3 en 0.4, dan kan de validiteit ten hoogste 0.35 zijn. (Betrouwbaarheid is dus een noodzakelijke voorwaarde voor validiteit. Een betrouwbare test hoeft echter niet valide te zijn. Andersom geldt dat een valide test per definitie ook betrouwbaar is. )
- Oorzaak 2: Verkeerd gekozen correlatiemaat: De bepaling van de sterkte van het verband tussen de testscores en het criterium kan op een aantal manieren plaatsvinden. Als men een lineaire relatie verwacht tussen de test en het criterium, berekent men de Pearson-product-moment-correlatie. Als men een niet-lineaire samenhang verwacht kan men andere maten gebruiken. Zo kan men bijvoorbeeld bij een kromlijnig verband de correlatieratio (eta) berekenen en als de testscore en het criterium beide dichotoom zijn, is de phi-coëfficiënt een geschikte maat. Als men een correlatiemaat kiest die niet goed past bij de samenhang tussen de testscore en het criterium wordt de sterkte van de samenhang onderschat.
-Oorzaak 3: Binnen heterogene groep homogene subgroepen: Als men in het valide-onderzoek (naar de samenhang tussen testscore X en criterium Y) werkt met een groep waarbinnen subgroepen zijn te onderscheiden, kan de validiteit worden onderschat. Dit is bijvoorbeeld het geval als de correlatie tussen 2 variabelen in subgroepen wel aanwezig is en als de correlatie in de totale groep, afwezig, minder sterk of in een andere richting is.
Voorbeeld:
(Figuur 34)
- Oorzaak 4: Contaminatie met criterium: Bij de bepaling van de criteriumvaliditeit kan men met een tweetal praktische problemen te maken krijgen. Het gevolg is een onbetrouwbare schatting van de criteriumvaliditeit. Het eerste probleem wordt aangeduid met Contaminatie met criterium. Dit betekent dat als er informatie over de testscore bekend wordt, dit van invloed kan zijn op het criteriumgedrag. Deze invloed kan zowel positief als negatief zijn. Een positieve invloed wil zeggen dat men een hogere correlatie vindt dan er in werkelijkheid is. Dit treft men aan als de personen, die de test hebben gemaakt, de testscores proberen waar te maken. Een negatieve invloed treft men juist aan als de personen op basis van hun scores zich bewust anders gaan gedragen dan men volgens testscores zou verwachten.
- Oorzaak 5: Restriction of range: Het tweede probleem duiden we aan met restriction of range. Dit is aan de orde als niet bij alle personen waarbij de test is afgenomen, ook het criteriumgedrag gemeten kan worden. Zowel expliciete als incidentele selectie kunnen hiervan de oorzaak zijn. Expliciete selectie vindt bijvoorbeeld plaats als alleen personen met een hoge testscore tot een bepaalde opleiding worden toegelaten. Van de personen die niet worden toegelaten kan men niet nagaan of ze misschien toch succesvol geweest zouden zijn. Incidentele selectie vindt bijvoorbeeld plaats als personen, met een lage testscore, zelf besluiten om niet aan een opleiding te beginnen of om er voortijdig mee op te houden. Beide selectiemechanismen zorgen ervoor dat het niet mogelijk is de relatie tussen de testscores en het criteriumgedrag voor alle mogelijke testscores te bepalen.

 

 

 

 

Hoofdstuk 3

Factoranalyse is een statistische techniek die wordt gebruikt om de informatie uit een groot aantal geobserveerde variabelen, zoals itemreacties of testscores, te reduceren tot een kleiner aantal nieuw te construeren variabelen. Het idee hierachter is dat het patroon van correlaties tussen de geobserveerde variabelen verklaard kan worden uit een betrekkelijk klein aantal hypothetische, ongeobserveerde kenmerken (factoren). Het aantal te onderscheiden factoren, alsmede het belang van de factoren, is in hoge mate afhankelijk van het aantal en de inhoud van de gebruikte variabelen.
Nadeel: Bij het reduceren van een groot aantal variabelen tot een aantal factoren gaat informatie verloren. De factoren representeren niet alle individuele verschillen in scores op de tien tests. De factoren geven een soort van ‘grootste gemene deler’ weer, maar dekken niet alle eigenaardigheden van elk van de oorspronkelijke variabelen. Voor een globale indruk volstaat het bekijken van de factoren, ,aar voor diagnostische doeleinden kan men zich beter op de informatie van de oorspronkelijke tests baseren.

Hoewel factoren hypothetisch zijn en niet direct geobserveerd kunnen worden, is het met factoranalyse mogelijk om samenhang tussen geobserveerde variabelen en de hypothetische factoren te schatten. Deze samenhangen tussen factoren en de geobserveerde variabelen worden weergegeven in een factorladingenmatrix of factormatrix.

Als in het assenstelsel de stand van de factoren (assen) loodrecht is, is de situatie orthogonaal en wil dit zeggen dat de factoren ongecorreleerd zijn. De oorsprong is 0 en de plaats van de variabelen kunnen aangegeven worden in het assenstelsel door middel van coördinaten.
Als je factorladingen uitrekent via SPSS krijg je ook altijd een kolom met communaliteiten. De communaliteit van een variabele is de proportie variantie van een variabele die door de gezamenlijke factoren wordt verklaard. Elke variabele heeft zijn eigen communaliteit, het is een kenmerk van een variabele. De communaliteit van een variabele kan uit de factorladingen van die variabele worden berekend:
(Figuur 35)
(De factorladingen van een variabele zijn de correlaties van de variabele met de factoren. Het kwadraat van een lading is dan de proportie door de factor verklaarde variantie in die variabele.)

Elke onderscheiden factor heeft zijn eigen eigenwaarde. De eigenwaarde drukt uit hoeveel variantie de betreffende factor verklaart van alle bij de factoranalyse betrokken variabelen. De formule voor eigenwaarde van factor J :
(Figuur 36)
Hoe meer variabelen hoe meer variantie er verklaard kan worden. Het percentage verklaarde variantie gebruiken we ook voor een kwalitatieve beoordeling van de factoroplossing. Als het percentage verklaarde variantie rond de 30% ligt, beoordelen we de factoroplossing als matig. Ligt het percentage verklaarde variantie rond de 50% dan beoordelen we de factoroplossing als goed.

2 methoden voor factoranalyse:
Hoofdcomponentenanalyse (ook principale componentenanalyse genoemd) is een methode om een verzameling geobserveerde variabelen (X1, X2, ..., Xk) te reduceren tot een kleiner aantal ongecorreleerde factoren7 (F1, F2, ...). De analyse wordt uitgevoerd op de correlaties tussen de naar z-scores getransformeerde variabelen (Z1, Z2, ... , Zk). In de hoofdcomponentenanalyse gaat men er vanuit dat de score van een persoon op een geobserveerde variabele geheel bepaald wordt door de factoren. We veronderstellen geen meetfouten. De formule voor een score Zg van persoon i is, als we net zo veel factoren als variabelen onderscheiden, als volgt:
(Figuur 37)
De factoren kunnen we, op hun beurt, zien als een lineaire combinatie van de geobserveerde variabelen. Elke factor is een gewogen som van de naar z-scores getransformeerde variabelen. Als we van persoon i de geobserveerde scores hebben en voor alle variabelen zijn de ladingen bepaald, dan is de formule voor een factorscore als volgt:
(Figuur 38)
Als we minder factoren dan variabelen hebben, wordt nooit ALLE informatie gedekt en is de som van de eigenwaarden niet meer gelijk aan de totale variantie en zijn de communaliteiten kleiner dan 1. Bij de keuze voor het aantal te selecteren factoren gebruiken we onder meer het eigenwaardecriterium. De eigenwaarden van de factoren zijn een eerste, grove, indicatie voor het aantal te selecteren (extraheren) factoren. Als de eigenwaarde van een factor groter is dan 1, dan komt de factor in aanmerking om geselecteerd te worden.
Met de keuze voor een aantal factoren hebben we een benadering (factormodel) voor de werkelijke geobserveerde gegevens. Uitgaande van dit factormodel kunnen we de correlaties tussen de variabelen schatten. Die geschatte correlaties zijn niet meer precies gelijk aan de geobserveerde correlaties tussen de variabelen. Hoe beter het factormodel, hoe beter dat model de geobserveerde correlaties 'verklaart'. Afhankelijk van de keuze van de soort factoranalyse worden dus verschillende resultaten gevonden, ook al zijn deze verschillen vaak gering.
De correlaties tussen de variabelen kunnen gereproduceerd worden door de berekende ladingen van de variabelen op de factoren. Voor de volgens het model geldende correlatiecoëfficiënt (Figuur 39) tussen item g en item h is, als we uitgaan van k onafhankelijke factoren, de volgende formule van toepassing:
(Figuur 40)
Als we een factoroplossing kiezen met 2 factoren is de formule voor correlatie tussen item g en item h: (Figuur 41)
Bij factoroplossingen met minder factoren dan er variabelen zijn, krijg je de correlaties niet precies terug. Het verschil tussen de werkelijke correlaties en de op de factoroplossing gebaseerde correlaties, gebruikt men wel voor de beoordeling van de kwaliteit van de oplossing; Hoe goed past het factormodel (het aantal gekozen factoren) op de geobserveerde data? Zolang de verschillen gering zijn, is het factormodel goed bruikbaar.
Een ander kwaliteitscriterium is de proportie of percentage door het factormodel verklaarde variantie in de variabelen. Hoe minder factoren in het factormodel worden gekozen, hoe minder variantie in de variabelen verklaard wordt. De formule voor de proportie verklaarde variantie voor één factor is:
(Figuur 42)
Als we het totaal percentage door de factoren verklaarde variantie willen berekenen, omdat de factoren niet onderling correleren (orthogonaal), mogen we de door de afzonderlijke factoren percentages verklaarde variantie optellen.
Het is in het algemeen zo dat een hoofdcomponentenanalyse een overschatting geeft van de ladingen, de communaliteiten en dus ook van het percentage verklaarde variantie in alle variabelen. De belangrijkste oorzaak hiervan is dat in de hoofdcomponentenanalyse geen rekening wordt gehouden met mogelijke onbetrouwbaarheid van de metingen. Er wordt in feite te veel variantie verklaard, hetgeen dus resulteert in de sterkere ladingen en grotere communaliteiten. De factoranalyse in enge zin geeft wat dat betreft betere schattingen.

Factoranalyse in enge zin is de tweede methode voor factoranalyse. Bij factoranalyse in enge zin gaan we er van uit dat de variantie van de geobserveerde variabelen naast de factoren ook voor een deel bepaald wordt door onbekende toevallige invloeden. Iedere variabele heeft enige unieke variantie. Deze variantie hangt niet samen met de factoren of met de andere variabelen die in de analyse zijn opgenomen. Deze unieke variantie kan error-variantie zijn, maar ook systematische variantie die specifiek is voor die ene variabele. De basisvergelijking van de factoranalyse ('in enge zin') is:
(Figuur 43)

Deze vorm van factoranalyse probeert dus ook de unieke variantie van de variabelen te schatten, zodat de gevonden factormatrix beter lijkt op de veronderstelde, ‘ware’ factormatrix. Aangezien variabelen bijna altijd een zekere proportie unieke variantie bevatten is factoranalyse in dit opzicht realistischer dan hoofdcomponentenanalyse.
Een eerste consequentie van de aanname dat de variabelen niet geheel bepaald worden door de factoren is dat de communaliteit van de variabelen niet meer gelijk aan één is. Dit is anders dan bij de hoofdcomponentenanalyse. Als we in de hoofdcomponentenanalyse evenveel factoren berekenen als er variabelen zijn dan is de variantie van de variabelen geheel verklaard en dan zijn alle communaliteiten gelijk aan één. Een tweede consequentie van de aanname dat de variabelen niet geheel bepaald worden door de factoren is dat de ladingen niet meer volledig vanuit de variabelen berekend kunnen worden. De ladingen moeten worden geschat. Bij de hoofdcomponentenanalyse kunnen de ladingen precies worden berekend.
Vaak is het resultaat van een factoranalyse niet overzichtelijk; er vonden vaak een paar hoge ladingen gevonden, een paar middelmatige en een paar lage en ook negatieve ladingen. Hierdoor moet factoranalyse vaak worden uitgevoerd met aanvullende mathematische rotatie, zodat er een matrix ontstaat waarin variabelen slecht op één factor een hoge lading hebben en op alle andere factoren een lage lading. Bij een orthogonale rotatie laten we de hoek tussen de verticale en horizontale as 90°. De door de factoren gezamenlijk verklaarde variantie blijft gelijk en ook de communaliteiten (verklaarde variantie in items door de factoren) veranderen niet. Wat er wel verandert zijn de ladingen van de items. De ladingen op de nieuwe factoren zijn gelijk aan de coördinaten van elk punt (test) op de geroteerde assen.
Bij een oblique of scheve rotatie is de hoek van de assen na rotatie geen 90° en laten we dus correlatie tussen de factoren toe.
Er wordt vaker gekozen voor een orthogonale rotatie dan voor een oblique rotatie, omdat orthogonale factoren op een efficiënte manier de variantie in de oorspronkelijke tests verklaren. Orthogonaliteit is geen weerspiegeling van een empirisch verband: bijvoorbeeld, rekenvaardigheid en taalvaardigheid correleren in de empirie positief, maar factoranalyse op een testbatterij bestaande uit beide soorten tests kan in orthogonale reken- en taalvaardigheidfactoren resulteren.

 

Let op! Zie bijlage voor alle figuren

.

figuren_artikelen_en_reader_testtheorie_voor_online.pdf

Check page access:
Public
Check more or recent content:

Literatuursamenvattingen bij Advanced Research Methods and Statistics - UU

Samenvatting Artikelen & Reader Testtheorie ARMS - UU (2013-2014)

Samenvatting Artikelen & Reader Testtheorie ARMS - UU (2013-2014)

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


A. Examining the validity and reliability of childhood abuse scales (Brandyberry)

Het doel van dit artikel was de validiteit en betrouwbaarheid bekijken van The Courage To Heal Workbook checklist (CTHC). Dit werkboek is gebaseerd op een deel uit het boek The Courage To Heal. De CTHC wordt vergeleken met de Trauma Symptom Checklist-40 (TSC-40).

In onderzoeken kan gekeken worden naar de begripsvaliditeit. Dit betekent of de test het beoogde abstracte kenmerk meet, zoals een vaardigheid, houding of gedrag. In dit onderzoek is daar sprake van, aangezien de CTHC correleert met de TSC-40 (r = .74) en ook met subschalen van de TSC-40. Ook bevestigen de uitgevoerde t-toets en ANOVA deze begripsvaliditeit.

Naast begripsvaliditeit dient ook gekeken te worden naar betrouwbaarheid. Betrouwbaarheid is de afwezigheid van toevallige invloeden op testscores. Hierbij zou dus, bij een herhaalde meting, hetzelfde resultaat gevonden moeten worden. Deze betrouwbaarheid is te beoordelen door middel van Cronbach’s alpha.

De interne consistentie van de CTHC liet een hoge alpha waarde zien, van .97. Toen de sample gescheiden werd in de klinische groep en niet-klinische groep, waren er nog steeds hoge alpha waarden. Alpha was .97 voor de niet-klinische groep, .96 voor de klinische groep. De waardes voor de TSC-40 waren ook hoog, met .92 voor de gehele sample, .83 voor de klinische groep en .94 voor de niet-klinische groep.

Deze hoge waardes van de interne consistentie bevestigen de betrouwbaarheid van de CTHC en de TSC-40.

In het artikel wordt geen expliciete aandacht besteed aan inhoudsvaliditeit. Inhoudsvaliditeit is de mate waarin het meetinstrument een specifiek (inhoud of kennis) domein representeert. In dit onderzoek zou het instrument inhoudsvalide hebben, als het alle aspecten van misbruik (fysiek, emotioneel, seksueel) representeert. Er wordt hier geen expliciete aandacht aan besteed, omdat inhoudsvaliditeit meer van belang is in de constructiefase van een test. Als de test al geconstrueerd is, zijn de beoordelingen van begripsvaliditeit en criteriumvaliditeit meer van belang.

Kortom, de CTHC is betrouwbaar en valide gebleken, aan te tonen door Cronbach’s alpha en de correlaties met de TSC-40.

 

.....read more

Access: 
Public
Samenvatting Aanbevolen artikelen ARMS - UU (2012-2013)

Samenvatting Aanbevolen artikelen ARMS - UU (2012-2013)

Deze samenvatting is geschreven in collegejaar 2012-2013.


A. Artikel Brandyberry

Het doel van dit artikel was de validiteit en betrouwbaarheid bekijken van The Courage To Heal Workbook checklist (CTHC). Dit werkboek is gebaseerd op een deel uit het boek The Courage To Heal. De CTHC wordt vergeleken met de Trauma Symptom Checklist-40 (TSC-40).

In onderzoeken kan gekeken worden naar de begripsvaliditeit. Dit betekent of de test het beoogde abstracte kenmerk meet, zoals een vaardigheid, houding of gedrag. In dit onderzoek is daar sprake van, aangezien de CTHC correleert met de TSC-40 (r = .74) en ook met subschalen van de TSC-40. Ook bevestigen de uitgevoerde t-toets en ANOVA deze begripsvaliditeit.

Naast begripsvaliditeit dient ook gekeken te worden naar betrouwbaarheid. Betrouwbaarheid is de afwezigheid van toevallige invloeden op testscores. Hierbij zou dus, bij een herhaalde meting, hetzelfde resultaat gevonden moeten worden. Deze betrouwbaarheid is te beoordelen door middel van Cronbach’s alpha.

De interne consistentie van de CTHC liet een hoge alpha waarde zien, van .97. Toen de sample gescheiden werd in de klinische groep en niet-klinische groep, waren er nog steeds hoge alpha waarden. Alpha was .97 voor de niet-klinische groep, .96 voor de klinische groep. De waardes voor de TSC-40 waren ook hoog, met .92 voor de gehele sample, .83 voor de klinische groep en .94 voor de niet-klinische groep.

Deze hoge waardes van de interne consistentie bevestigen de betrouwbaarheid van de CTHC en de TSC-40.

In het artikel wordt geen expliciete aandacht besteed aan inhoudsvaliditeit. Inhoudsvaliditeit is de mate waarin het meetinstrument een specifiek (inhoud of kennis) domein representeert. In dit onderzoek zou het instrument inhoudsvalide hebben, als             het alle aspecten van misbruik (fysiek, emotioneel, seksueel) representeert. Er wordt hier geen expliciete aandacht aan besteed, omdat inhoudsvaliditeit meer van belang is in de constructiefase van een test. Als de test al geconstrueerd is, zijn de beoordelingen van begripsvaliditeit en criteriumvaliditeit meer van belang.

Kortom, de CTHC is betrouwbaar en valide gebleken, aan te tonen door Cronbach’s alpha en de correlaties met de TSC-40.

B. Artikel Presnell & Stice

In dit artikel staat de volgende vraagstelling centraal: ‘Vergroot het volgen van een dieet het risico op boulimische pathologie?’ Hierbij is gebruik gemaakt van twee theorieën over de verwachte resultaten van het onderzoek, namelijk het dietary restraint model en ‘diëten als nabije risico factor’. Op basis van eerder onderzoek wordt uiteindelijk verwacht dat het volgen van een dieet het risico op boulimische pathologie verkleint.

Onderzocht zijn vrouwen van 18-28 jaar, afkomstig uit de gemeenschap en van de universiteit. Er.....read more

Access: 
Public
Advanced Research Methods and Statistics for Psychology (ARMS): Samenvattingen, uittreksels, aantekeningen en oefenvragen - UU

Advanced Research Methods and Statistics for Psychology (ARMS): Samenvattingen, uittreksels, aantekeningen en oefenvragen - UU

In this bundle Lecture Notes are shared for the course Advanced Research Methods and Statistics for Psychology of Psychology Bachelor 2/3 at the University of Utrecht.

For a complete overview of the summaries & study service offered by JoHo and the available printed summaries for this course, visit the Summary Shop University of Utrecht - Bachelor 2/3 on JoHo.org.

Study materials from the preceding course MTS3 are also included in Dutch.

Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Check more of this topic?
How to use more summaries?


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the menu above every page to go to one of the main starting pages
  3. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  4. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  5. Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
2013
Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Promotions
Image

Op zoek naar een uitdagende job die past bij je studie? Word studentmanager bij JoHo !

Werkzaamheden: o.a.

  • Het werven, aansturen en contact onderhouden met auteurs, studie-assistenten en het lokale studentennetwerk.
  • Het helpen bij samenstellen van de studiematerialen
  • PR & communicatie werkzaamheden

Interesse? Reageer of informeer