Samenvatting Essentials of Research Methods in Health, Physical Education, Exercise Science, and Recreation (Berg & Latin)
Deze samenvatting is gebaseerd op het studiejaar 2013-2014.
Deel 1. Inleidende begrippen
Hoofdstuk 1 - Introductie van onderzoek
Er moet een goede reden zijn voor het feit dat bijna alle universiteiten en hoge scholen tegenwoordig een cursus ‘onderzoekdesign en methodes’ aanbieden. Onderzoek is een groot deel van de kennis die studenten nodig hebben om het proces, algemene kennis en professionele training, te begrijpen. Het huidige leven bestaat uit statistiek en onderzoek, het is daarom vanzelfsprekend dat een student de basiskennis van het onderzoeksproces moet bezitten. Onderzoek is een manier om informatie te vergaren, een doordachte beslissing te maken of om nieuwe kennis te ontwikkelen. Veel mensen vinden onderzoek een suffe en theoretische bedoening, maar men realiseert zich niet dat veel professionals allerlei onderzoekstechnieken gebruiken in het dagelijkse leven.
Het is een complexe taak om up to date te blijven met de snel ontwikkelende kennis van tegenwoordig, zelfs voor de meest toegewijde professionals. Om onze dagelijkse werkzaamheden zo uit te voeren als effectieve professionals moeten we een zekere hoeveelheid onderzoek tot ons nemen. Men mag een redelijke kwaliteit van elke professional verwachten, maar deze kwaliteit kan alleen gewaarborgd worden door het lezen van voldoende onderzoeken binnen zijn/haar vakgebied. Verkeerde en misleidende artikelen zijn een veel voorkomend probleem. Daarom moet men de juiste van de onjuiste bronnen en de feiten van de fantasieën kunnen onderscheiden. Daarnaast moet men de beperkingen van een onderzoek kunnen herkennen.
Met een goed begrip van de grondbeginselen van onderzoek leer je onderzoeken steeds beter te begrijpen. Het lezen van verschillende onderzoeken en het nadenken over manieren om sommige bevindingen te gebruiken stimuleert om te groeien. Onderzoeksvaardigheden kunnen zinvol zijn in het dagelijkse leven. Het onderzoeksproces is niet perfect, maar voor de meesten is het een belangrijk hulpmiddel om de gegrondheid van onze beslissingen te bewijzen. Het proces wordt een vaardigheid van onschatbare waarde dat van pas komt in een groot deel van het professionele leven. Je wordt een productievere professional door een goed georganiseerde wetenschappelijke aanpak.
De wetenschappelijke methode bestaat ten eerste uit het vermelden van het probleem of de onderzoeksvraag. Ten tweede wordt een testbare of meetbare hypothese opgesteld. Ten derde noteer je de methodes die gebruikt worden bij het uitvoeren van de studie.
1. Wie worden proefpersonen en wat zijn hun karakteristieken?
2. Welke metingen worden gemaakt? Hoe?
3. Definieer precies van de groepen moeten of gaan doen.
4. Hoe wordt de data statistisch onderzocht?
5. Voer de studie uit.
6. Analyseer de date door het gebruik van passende statistiek.
7. Vermeld de conclusie(s).
De meeste mensen zoeken naar antwoorden voor een probleem of proberen een beslissing waarschijnlijker te maken omdat een bepaald antwoord of uitkomst beter zal uitkomen. Statistiek is daarom nodig om de subjectiviteit in de te analyseren data te verminderen. De wetenschappelijke methode maakt het mogelijk een oordeel vrij van vooroordelen te vellen. Onderzoek moet gezien worden als een continu veranderende massa van informatie dat tot verschillende interpretaties kan leiden over de tijd. Alle kennis van een bepaald onderwerp op een bepaald moment wordt gezien als tijdelijke kennis.
Inductief redeneren is een methode die onderzoekers kunnen gebruiken. Het is het maken van een conclusie of generalisatie gebaseerd op een beperkt aantal observaties. Inductief redeneren gaat uit van het specifieke geval richting het algemene. Alle onderzoeken waarin conclusies worden getrokken uit de resultaten gebruiken inductief redeneren.
Deductief redeneren is het tegenovergestelde van inductief redeneren. Het gaat van het algemene naar het specifieke geval. De toepassing van onderzoek is ook gebaseerd op deductief redeneren, men veronderstelt namelijk dat de resultaten van het onderzoek ook gelden voor groepen mensen die te vergelijken zijn met de groep proefpersonen.
Inductief redeneren: Tien van de tien mensen uit het onderzoek zijn rechtshandig. Conclusie: alle mensen zijn rechtshandig.
Deductief redeneren: Alle auto’s gebouwd na 1994 hebben een katalysator. Mijn auto heeft een katalysator. Conclusie: mijn auto is gebouwd na 1994.
Hieruit blijkt waarom onderzoekers graag een redelijk aantal proefpersonen in een onderzoek toevoegen. De conclusie vanuit inductief redeneren wordt namelijk waarschijnlijker met meer proefpersonen.
De wetenschappelijke methode wordt gebruikt om feiten te verkrijgen. Feiten kunnen beschouwd worden als consequent waargenomen gebeurtenissen. Met de statistiek wordt aangegeven of een verandering te wijten is aan het effect van de variabele of dat het door het toeval wordt bepaald. Theorie is de integratie van meerdere feiten in een verklaring van een fenomeen. Dit complexe proces probeert de meeste feiten te behandelen geassocieerd met het fenomeen. Omdat nieuwe informatie continu ontstaat, moeten feiten en theorieën periodiek herzien worden. Een van de meest noodzakelijke redenen voor het uitvoeren van onderzoek is het sturen van gedrag. Een leidraad van gedrag gebaseerd op feiten en theorie noemt men een beginsel. Beroepen streven duidelijk naar leidraden voor beoefenaars als een middel om het leven van mensen te verbeteren. Onderzoek en de daarin verweven feiten, theorie en beginselen zullen altijd een doorslaggevende component zijn in het werk van professionals in de gezondheidszorg.
Vergelijk het maken van beslissingen met het gebruik van de wetenschappelijke methode, inclusief statistiek met het maken van beslissingen op gebruik van traditie, trial and error en vooroordelen. Hoewel de wetenschappelijke methode niet perfect is, brengt het in de meeste situaties de beste informatie op. Het voelt natuurlijk voor mensen om beslissingen te baseren op traditie, emotie en beperkte logica. Fundamenteel onderzoek heeft te maken met theoretische concepten en heeft geen onmiddellijke concern met toepassingen. Dit onderzoek is voornamelijk gericht op het belang van de kennis. Bij toegepast onderzoek wordt onderzoek gedaan met een specifieke vraag of toepassing in gedachten. Bestaande fundamentele kennis wordt daarbij gebruikt om een praktische toepassing of product te ontwikkelen. Veldonderzoek wordt buiten de strak gecontroleerde omgeving van het laboratorium gedaan. De locatie kan op school, in een klas, sportschool, park, ziekenhuis of op welke locatie dan ook zijn. Laboratoriumonderzoek wordt uitgevoerd onder meer steriele condities, dat betekent dat onderzoekers betere en strakkere controle over een experiment kunnen houden. Dit vergemakkelijkt juiste resultaten maar levert wat beperkingen op de toepassing van de resultaten.
Interne validiteit is de mate waarin het redeneren binnen het onderzoek correct is uitgevoerd, het is de algehele kwaliteit van het onderzoek. Laboratoriumonderzoek wordt algemeen gekarakteriseerd door hogere interne validiteit dan veldonderzoek door de relatieve strakke controle. Externe validiteit is in hoeverre de resultaten van een bepaald onderzoek of een test te generaliseren zijn. Als bepaalde resultaten extern valide zijn, wil dit zeggen dat de resultaten te generaliseren zijn en dus voor een grotere groep dan slechts de onderzoeksgroep gelden. Veldonderzoek heeft vaak een grotere externe validiteit dan laboratoriumonderzoek omdat dit wordt uitgevoerd in een omgeving die beter te vergelijken is met condities buiten het experiment. Een onafhankelijke variabele is een variabele die gemanipuleerd of gecontroleerd wordt door de onderzoeker. De afhankelijke variabele is de variabele die bepaald wordt door de onafhankelijke variabele. In een studie waar het effect van cafeïne op het angstniveau wordt bekeken is cafeïne de onafhankelijke variabele en het angstniveau de afhankelijke variabele.
Competente onderzoekers beschikken over bepaalde eigenschappen. Dit suggereert dat het ontwikkelen van deze karakteristieken belangrijk is om een goede onderzoeker te worden. Onderzoekers moeten open-minded zijn. Zo blijven alle mogelijke opties voor vragen, strategieën en verklaringen voor resultaten open. Hiernaast moet een onderzoeker genoeg kennis hebben over zijn vakgebied om passende vragen te stellen, over genoeg kennis beschikken van een specifiek onderwerp. Ten derde moet een onderzoeker beschikken over intellectuele nieuwsgierigheid. Men kan namelijk geen kennis vergaren over een onderwerp zonder een aanzienlijke hoeveelheid artikelen over dit onderwerp te lezen. Het onderzoeksproces omvat verschillende gedetailleerde stappen die jaren duren totdat het voltooid is. Daarom moet een onderzoeker over volharding beschikken. Het formuleren van een precieze onderzoeksvraag kan uren van artikelen lezen en discussiëren met andere onderzoekers in beslag nemen. Bij het schrijven van de publicatie van een onderzoek heeft de onderzoeker ruimschoots de gelegenheid om oneerlijk te zijn. Men kan plagiaat plegen of data toevoegen om de hypothese waarschijnlijker te maken. Om een professionele reputatie te vergaren moet de onderzoeker echter eerlijk zijn en de waarheid spreken.
Hoofdstuk 2 - Ethiek in onderzoek met proefpersonen
Proefpersonen hebben intrinsieke rechten die het mogelijk maken om weloverwogen beslissingen te nemen over het meedoen in een studie en over de behandeling gedurende en na de deelname. Het design van de studie, de karakteristieken van de proefpersonen, de gebruikte methode en de gesteldheid van de onderzoeker hebben allemaal invloed op de ethische behandeling voor de deelnemer. In 1974 heeft het U.S. Congress de National Commission for the Protection of Human Subjects of Biomedical and Behavioral Research gevormd voor het ethisch behandelen van proefpersonen in onderzoeken. Het Belmont Report (1979) werd gepubliceerd als resultaat van de overwegingen van de commissie. Veel internationale reglementen zoals de Code of Nuremberg (1949) en de Declaration of Helsinki (1974) beschermen de onderzoeksdeelnemers. Tegenwoordig heeft bijna elk tijdschrift dat onderzoeken met proefpersonen of proefdieren publiceert een politiek statement waarin onderzoekers moeten verklaren dat de proefpersonen informed consent hebben getekend en ethisch verantwoord behandeld zijn. Een institutioneel review bord (IRB) is een panel van deskundige onderzoekers die een oordeel geven over de kwaliteit en veiligheid van onderzoeken voordat ze uitgevoerd mogen worden. De meeste instituties die onderzoeken uitvoeren met mensen hebben een IRB. De IRB beschermt de rechten van de deelnemers en is een belangrijke controle voor de kwaliteit van het onderzoek. Daarnaast beschermt de IRB ook de onderzoekers en de institutie.
Een onderzoeker heeft een ethische verbintenis om te verzekeren dat een deelnemer voldoende informatie en inzicht heeft gekregen om een juiste beslissing te maken over deelname in het onderzoek. Het recht om informed consent te geven is één van de meest belangrijke rechten van de deelnemer. Het tekenen van informed consent betekent dat de onderzoeker de deelnemer op een begrijpelijke en volledige manier heeft geïnformeerd over het uit te voeren onderzoek. Informed consent bestaat uit verschillende componenten, die hieronder worden genoemd:
1. Achtergrondinformatie en uitnodiging tot deelname.
2. Toelichting van procedures.
3. Potentieel risico en ongemakken.
4. Potentiële voordelen.
5. Het recht van vragen en terugtrekking.
Een deelnemer moet geïnformeerd worden over het feit dat hij/zij zich ten alle tijden kan terugtrekken uit het onderzoek zonder opgaaf van reden. Om te verifiëren dat een deelnemer begrijpt wat er in het informed consent staat, wordt het gesuggereerd om als onderzoeker een aantal vragen te stellen over het document.
Alle observaties van deelnemers moeten zo vertrouwelijk mogelijk behandeld worden. Dit houdt in dat alleen de onderzoekers toegang hebben tot de identiteit van de deelnemers en hun gerelateerde informatie daaraan. Als het mogelijk is moeten proefpersonen een identificatienummer krijgen om de anonimiteit te waarborgen.
Het is acceptabel om observaties te maken van publieke gedragingen die normaal gesproken ook door anderen gezien zouden worden, maar het is onethisch en een schending van privacy om geheime observaties te maken van gedragingen die persoonlijk of gevoelig zijn. Voordat men een onderzoek uitvoert over persoonlijke gedragingen of wanneer men observatietechnieken gebruikt, is het noodzakelijk om aan de deelnemers te verklaren waarom dit gebeurt en om hun toestemming te vragen voordat de data verzameld wordt.
Een deelnemer mag van de onderzoeker verwachten dat hij beschikt over een hoog niveau van vaardigheden voor het uitvoeren van een onderzoek. De metingen moeten ook deskundig worden uitgevoerd om de ongemakken voor de deelnemer te minimaliseren. Tenslotte moet een onderzoeker feedback geven en de resultaten bespreken. Een onderzoeker is verantwoordelijk voor de ethische behandeling van zijn deelnemers.
Deel 2. Het schrijven van een onderzoek
Hoofdstuk 3 - Het ophalen van informatie
Voordat een onderzoeksverslag geschreven wordt, moet je wat algemene en specifieke literatuur lezen om een bepaalde kennis over het onderwerp te ontwikkelen. Dit betekent ook kennis van onderzoeksdesigns, methodes, karakteristieken van onderwerpen en aanbevelingen van anderen. Het bekijken van literatuur met deze aspecten in gedachten verbetert de resultaten van het lezen.
Referenties of bronnen van informatie kunnen geclassificeerd worden als primair of secundair. Primaire referenties zijn de originele artikelen, rapporten of boeken. Secundaire referenties zijn datgene waarin het originele werk wordt besproken of vermeld door anderen dan de auteur van het origineel. Het verschil tussen primaire en secundaire bronnen moet begrepen worden omdat er wordt verondersteld dat de referenties geciteerd in een onderzoek in eerste instantie gelezen worden om het originele werk zo goed mogelijk te begrijpen. Een beperking aan secundaire bronnen is dat de mening en vooroordelen van de auteur via de literatuur worden overgebracht. Om de informatie zo accuraat mogelijk te hebben, moet men de originele of primaire bronnen lezen. Secundaire bronnen horen alleen gebruikt te worden wanneer de primaire bron niet beschikbaar is.
Bibliografieën bieden informatie over boeken, artikelen en documenten. Er is geen samenvatting toegevoegd, dus men moet het doen met de titel. Een abstract (overzicht) is een compilatie van informatie van een bepaald onderwerp, het verstrekt een bibliografische vermelding en een samenvatting van elke bron. Het hoofddoel van het lezen van een abstract is om te bekijken waar het originele werk gelezen kan worden. Abstracts zijn dus een bron van informatie voor eerder gepubliceerde kennis. Een index is identiek aan een bibliografie behalve het feit dat het beperkt is voor tijdschriften. Normaal gesproken is er geen samenvatting of abstract verstrekt. Onderzoeksrecensies (reviews) zijn samenvattingen en interpretaties van het onderwerp geschreven door een expert in dat vakgebied. In recensies vindt je de historische ontwikkeling van een specifiek gebied van onderzoek, beperkingen in bestaand onderzoek, suggesties voor toekomstige onderzoeken en onderwerpen die behandeld zouden moeten worden. In de disciplines van gezondheid, lichamelijke opvoeding en recreatie is tegenwoordig een grote verscheidenheid aan tijdschriften beschikbaar. De meeste professionele organisaties publiceren één of meerdere tijdschriften, waarvan één is gefocust op onderzoek in deze discipline.
Vanaf 1970 gebruikt men de computer en tegenwoordig is een enorm aantal referenties beschikbaar op het internet. Het lokaliseren van referenties in indexen, bibliografieën en andere bronnen scheelt veel uren zoeken in de bibliotheek. Tegenwoordig toetst men enkele sleutelwoorden in en het systeem zoekt ernaar in de database, vervolgens kan dit ook nog geprint worden. Het gehele proces is snel uit te voeren en kan zelfs thuis plaatsvinden. Online abstracts en documenten kunnen allemaal ingezien worden, maar voor een full-text document of artikel wordt meestal een kleine bijdrage gevraagd. Men wordt geacht voorzichtig te zijn in het selecteren van websites, omdat veel commerciële sites meer geïnteresseerd zijn in het verkopen van producten dan het leveren van de juiste informatie. Internet is een snelle en makkelijke manier om informatie te vergaren, maar onderzoekers en studenten moeten opletten of websites over valide bronnen beschikken. In het geval van een commerciële website kan de nauwkeurigheid van de informatie verminderd zijn door vooroordelen van de auteur. Een ander voordeel van databases op internet is dat deze meer up-to-date zijn dan geprinte documenten, het is namelijk gemakkelijk om een website te actualiseren.
Het is belangrijk om geschikte termen te gebruiken voor de zoekopdracht naar een onderwerp, deze termen kunnen namelijk gevonden worden in gepubliceerde artikelen in tijdschriften. De sleutelwoorden worden normaal gesproken na de abstract van het artikel op de eerste pagina weergegeven. Eén van de unieke voordelen van de computeraanpak is dat verscheidene opties de hoeveelheid referenties kunnen beperken. Bijvoorbeeld door het combineren van twee of meer woorden door de woorden ‘en’, ‘of’ en ‘niet’. Hiernaast kunnen aanhalingstekens gebruikt worden om de zoekopdracht te beperken. Deze opties zijn belangrijk omdat ze het aantal referenties enorm beïnvloeden. Het is moeilijker om een zoekopdracht te beperken dan om een goed aantal referenties te realiseren.
Hoofdstuk 4 - Het onderzoeksvoorstel en verslag
Er is geen standaard universitair protocol betreffende de nummering van de hoofdstukken of exacte componenten van elk hoofdstuk. Er is echter een onherroepelijke trend over het advies in de meeste instellingen. Er wordt desondanks aanzienlijke variatie binnen en tussen faculteiten gevonden. Het onderzoeksverslag is kort en bevat niet alle aspecten van een thesis (proefschrift). Het formaat van een thesis wordt hoofdstuk voor hoofdstuk verklaard, terwijl in tijdschriftartikelen veel variaties worden opgemerkt. Het onderzoeksvoorstel eindigt met de methodesectie. Veel studenten schrijven een voorstel en komen nooit tot de daadwerkelijke uitvoering van het onderzoek. De studenten die overwegen om een thesis te schrijven worden geadviseerd om een goede en strakke planning te maken. Het kan namelijk een jaar duren voordat de vele stappen doorlopen zijn; een discussie met een professor, schrijven en presenteren van het voorstel, verkrijgen van goedkeuring van de instelling, enzovoort. De tijdsduur van veel stappen hangt echter af van de motivatie van de student.
Tijdschema voor een thesis | |
Stap | Geschatte tijd |
1. Verkrijgen van de commissie(voorzitter) | 1 week |
2. Schrijf en herschrijf het voorstel na feedback | 2-3 maanden |
3. Uitreiken kopieën bij commissie | 1 week |
4. Voorbereiden en presenteren onderzoeksvoorstel | 1 week |
5. Herschrijf onderzoeksvoorstel | 1-2 weken |
6. Schrijf IRB document | 1 week |
7. IRB review en goedkeuring | 1-4 weken |
8. Uitvoeren onderzoek | Verscheidene maanden |
9. Analyseer data en schrijf laatste hoofdstukken | Verscheidene weken |
10. Voorbereiden en presenteren thesis | 2 weken |
11. Herschrijf thesis | 1 week |
12. Opsturen voor laatste goedkeuring | 5 minuten |
* Het tijdsschema voor een thesis.
De thesis is een uitwerking van de wetenschappelijke methode. Als men de aanbevelingen volgt, is het schrijven van een thesis een logisch proces waarin men stap voor stap kan werken. Door het verdelen van de hoofdstukken in componenten geeft men zichzelf de mogelijkheid om per component aan het werk te gaan. Dit geeft veel overzicht en is qua tijdsduur erg aan te raden. Op deze manier word je niet verplicht om vele vermoeiende uren achter elkaar door te werken. Een onderzoeksverslag wordt in het algemeen in de derde persoon geschreven. Daarnaast wordt een groot deel in de tegenwoordige tijd geschreven, omdat het onderzoek nog uitgevoerd moet worden. De review van literatuur, resultaten en discussie worden echter in de verleden tijd geschreven, omdat dat werk op het moment van schrijven vaak al voltooid is.
Een titel hoort de inhoud van een verslag te beschrijven, zodat lezers kunnen besluiten het onderzoeksverslag wel of niet te lezen. Het is belangrijk om betekenisvolle woorden te gebruiken in de titel van het onderzoeksverslag. Typische titels zijn tien tot vijftien woorden lang met zelfstandige naamwoorden als sleutelwoorden. Jargon moet vermeden worden om duidelijkheid te scheppen. Daarnaast moeten titels niet te kort en te algemeen zijn, ze moeten beschrijven waar het onderzoek over gaat. Een abstract is een samenvatting van het artikel dat heel kort het doel van het onderzoek, de proefpersonen, de methode, de resultaten en de conclusie van het onderzoek beschrijft. Het is geen deel van het onderzoeksvoorstel omdat er geen data in verzameld of geanalyseerd wordt. Een abstract is meestal beperkt tot 100-300 woorden.
Componenten van de thesis en onderzoeksverslag |
Titel |
Abstract |
Hoofdstuk 1: Introductie |
Hoofdstuk 2: Het probleem |
Hoofdstuk 3: Review van literatuur |
Hoofdstuk 4: Procedure of methode |
Hoofdstuk 5: Resultaten |
Hoofdstuk 6: Discussie |
Hoofdstuk 7: Samenvatting en conclusie |
Referenties |
Appendix |
* De componenten van de thesis en onderzoeksverslag.
Hoofdstuk 1: Introductie
De introductie is een kort hoofdstuk dat vaak samengevoegd wordt met hoofdstuk 2, het probleem. Het doel van de introductie is het motiveren van het belang van het onderzoek, men probeert te verklaren waarom juist dit onderzoek uitgevoerd moet worden. Om het belang te motiveren zijn vaak andere onderzoeken nodig. Zolang er bijvoorbeeld nog onenigheid bestaat over de beste behandeling na een scheenbeenbreuk, is het huidige onderzoek nuttig om de optimale behandeling te vinden. Of wanneer een onderzoek alleen met mannelijke proefpersonen is uitgevoerd, levert het misschien nieuwe inzichten op om dat onderzoek uit te voeren met vrouwelijke proefpersonen. Daarnaast hebben verbeterde onderzoekstechnieken de deur geopend om oude technieken te vervangen en de gevonden resultaten nader te bekijken. De introductie is cruciaal om het belang en de waarde van het onderzoek te begrijpen en te benadrukken. De meeste introducties zijn geschreven in de verleden tijd omdat het de resultaten van vorige studies citeert en beschrijft. Alleen de zin: ‘Het doel van deze studie is…’ wordt in toekomstige tijd geschreven. Nadat een onderzoek uitgevoerd is wordt de zin veranderd naar de tegenwoordige of de verleden tijd.
Hoofdstuk 2: Het probleem
Dit hoofdstuk verschaft een overzicht van het onderzoek inclusief een verklaring van het doel of probleem. Daarnaast wordt de hypothese, de afbakeningen, de beperkingen en de significantie van het onderzoek vermeld. De informatie in dit hoofdstuk verschijnt niet in tijdschriftartikelen omdat de inhoud van het overzicht verdeeld over de andere hoofdstukken in het onderzoeksverslag voorkomt. In de thesis is dit hoofdstuk wel apart opgenomen omdat het de aandacht trekt op componenten van het onderzoek die normaal gesproken misschien genegeerd zouden worden. Het doel van de studie is een korte verklaring waarin een exact probleem identificeert wordt. Deze regel is vaak lastig om op te stellen, want de meeste studenten voeren een onderzoek uit over een enorm probleem met verscheidene variabelen. Een onderzoeksprobleem is normaal gesproken erg specifiek en neemt één of twee sleutelwoorden in beslag. De beginnende onderzoeker zal adviseren om één variabele te selecteren voor het onderzoek, omdat twee of meer variabelen een moeilijker te controleren onderzoek inhoud. Hoe meer ervaren men wordt, hoe makkelijker het wordt om een betekenisvol probleem op te stellen en het onderzoek uit te voeren. Het is belangrijk om het doel van het onderzoek te beperken, hierdoor kan men zich beter focussen op de kwaliteit.
Een hypothese is een verklaring die de verwachtte uitkomst van een onderzoek aanduidt. De hypothese wordt vaak geformuleerd als een vraag. Er bestaan statistische hypothesen en onderzoekshypothesen. In de statistische nulhypothese wordt geen significant effect of significante relatie verwacht. Daarnaast wordt in de statistische werkhypothese wel een significant effect of significante relatie verwacht. De onderzoekshypothese wordt geschreven aan de hand van de verwachte resultaten van de onderzoeker. In onderzoeksverslagen worden onderzoekshypothesen vaker gebruikt dan statistische hypotheses.
Afbakeningen zijn de wat, wie, waar en waarom van het onderzoek. Hierin wordt opgesomd welke deelnemers in het onderzoek zijn geïncludeerd en welke buiten de criteria vallen. Daarnaast worden de hoeveelheid deelnemers, het geslacht van de deelnemers en de leeftijd van de deelnemers vermeldt. Ook wordt de locatie van het onderzoek, de duur van het onderzoek en de verschillende variabelen bekend gemaakt.
Beperkingen zijn gebeurtenissen die kunnen storen of problemen kunnen opleveren met de resultaten van het onderzoek. Het zijn de gebeurtenissen die de onderzoeker niet onder controle heeft. Een vaak voorkomende beperking is de duur van het onderzoek. Korte termijn onderzoeken kunnen beperkt zijn doordat sommige fenomenen niet veranderen binnen de gegeven onderzoekstijd. In een onderzoek naar botdichtheid bij het gebruik van een medicijn, zijn nog niet binnen acht weken veranderingen te verwachten. Door het opstellen en beschrijven van de beperkingen toont de onderzoeker dat hij rekening heeft gehouden met mogelijke invloeden van andere variabelen. Geen enkele studie kan alle omgevingsfactoren controleren en daarom hebben zelfs de beste studies hun beperkingen. In gepubliceerde artikelen worden beperkingen vaak genoteerd aan het eind, in de discussiesectie.
Sommige termen moeten gedefinieerd worden als ze gebruikt worden in een onderzoek. Het woord gezondheid wordt in het woordenboek bijvoorbeeld anders aangeduid dan in het professionele vlak. Sommige termen zijn eenvoudig gedefinieerd om personen van buiten het vakgebied te assisteren. De significantie van de studie betreft de praktische toepassing in de discipline en misschien voor de maatschappij in het algemeen. Het is het nut van het onderzoek voor het eigen vakgebied en voor de hele samenleving. De significantie van de studie moet niet verward worden met de statistische significantie.
Hoofdstuk 3: Review van literatuur
De review van literatuur wordt meestal in verschillende secties opgedeeld. Het eerste deel, de introductie, is een korte indicatie van de gebruikte titels van artikelen die gebruikt zijn voor het eigen onderzoek. Hierin wordt de lezer geïnformeerd over de totstandkoming van de literatuuranalyse. Een review van literatuur wordt niet gezien in tijdschriftartikelen omdat het is verweven in de introductiesectie en discussiesectie. De taak van de review is het analyseren van de gebruikte literatuur en niet het opstellen van een lijst van verscheidene onderzoeken. De review is georganiseerd rondom verschillende concepten en geen beschrijving van een onderzoek per paragraaf. De onderzoeken in de literatuur worden geanalyseerd aan de hand van overeenkomsten tussen deze onderzoeken.
Hoofdstuk 4: Procedure of methode
Dit hoofdstuk beslaat de beschrijving van alle details van het onderzoek op analoge volgorde. De opzet en de uitvoering van de studie worden beschreven, waardoor de lezer een indruk krijgt over de kwaliteit van het onderzoek. Als men de gegevens van een groep deelnemers beschrijft, moet het duidelijk zijn hoe men aan deze deelnemers is gekomen. De verschillende mogelijkheden bepalen hoe representatief de deelnemers zijn. Ook wordt er vermeld aan welke criteria de proefpersonen moeten voldoen. Inclusiecriteria zijn punten waaraan een proefpersoon sowieso moet voldoen voordat er deelgenomen mag worden aan het onderzoek. Deze criteria kunnen bijvoorbeeld iets zeggen over geslacht, leeftijd, medische status of medicatie. Vervolgens worden de deelnemers vaak verdeeld over een aantal groepen. Dit verdelen kan op verschillende manieren gebeuren en ook dit moet uitgelegd worden in de methodesectie. Tenslotte wordt aangegeven dat alle deelnemers in het onderzoek een informed consent hebben ondertekend.
Het design van een onderzoek is een operationele procedure waarin wordt vermeld op welke manier het onderzoek uitgevoerd is, hoe de deelnemers zijn gegroepeerd en welke activiteit door welke groep is uitgevoerd. Het is belangrijk om de experimentele procedures te beschrijven. Wanneer dit design adequaat beschreven is, moet het mogelijk zijn om het onderzoek identiek te herhalen. Hiernaast wordt genoteerd hoe de gegevensverzameling tot stand is gekomen. Er wordt beschreven op welke manier gegevens over de deelnemers is verkregen. Hiertoe behoren de gebruikte instrumenten en meetapparatuur, maar ook de validatie procedure, de plaats van datacollectie, de tijd op de dag, de psychologische status, enzovoort. Bij het gebruik van instrumenten en meetapparatuur moet de naam en het modelnummer vermeld worden in de methodesectie.
Ook wordt de tijdsduur van het onderzoek bekend gemaakt. Alle gegevens kunnen tegelijkertijd verzameld zijn, maar er kan ook een bepaalde tijd tussen hebben gezeten. Niet alleen het type onderzoek maar ook de periode in een jaar waarin het onderzoek is uitgevoerd is belangrijk. Daarnaast worden de gemiddelden van de verkregen data beschreven, maar ook de behandeling of interventie en de statistische analyse die is toegepast voor het analyseren van de resultaten. Elke statistische procedure die gebruikt wordt tijdens het onderzoek moet beschreven worden. Met bij elke procedure het gebruikte significantieniveau. Tenslotte moet ook de toegepaste statistische software genoteerd worden.
Het doel van een gedetailleerde methode is dat anderen het onderzoek precies kunnen herhalen. Hierdoor kunnen andere onderzoekers een goede beoordeling geven over jouw resultaten van het onderzoek. De methodesectie wordt geschreven in de toekomstige tijd, omdat het een plan bevat over het uit te voeren onderzoek.
Hoofdstuk 5 - Voltooien van het onderzoeksverslag
Het onderzoeksvoorstel eindigt met een methodesectie. Wanneer de data verzameld en geanalyseerd is, kunnen de overige hoofdstukken geschreven worden.
Hoofdstuk 5: Resultaten
De resultatensectie is een korte vaststelling van de betekenisvolle bevindingen zonder een verklaring. Het meest logisch om mee te beginnen is om mede te delen of de geteste hypothese aangenomen of verworpen is. Dit is gebaseerd op de resultaten van een geschikte statistische procedure. Tabellen en grafieken worden vaak gebruikt om de resultaten overzichtelijk te maken.
Richtlijnen voor tabellen
1. Plaats een titel boven de tabel.
2. Nummer tabellen achtereenvolgend.
3. Plaats een tabel in de tekst op de pagina waar het vermeld wordt.
4. Gebruik horizontale lijnen om rubrieken van de inhoud te scheiden.
5. Toon meeteenheden voor elke variabele tussen haakjes in de bovenste rubriek.
6. Gebruik geen verticale lijnen.
7. Rapporteer de grootte tussen haakjes door n te gebruiken voor de groepsgrootte en N voor de grootte van het onderzoek.
Hoofdstuk 6: Discussie
Het discussiehoofdstuk is een verklaring en interpretatie van de resultaten. In het algemeen bevat het de gemiddelde bevindingen, vergelijkingen met de resultaten van andere onderzoeken, hoe de resultaten gerelateerd kunnen worden aan de theorie, beperkingen van het onderzoek, implicaties en aanbevelingen voor komend onderzoek. De gemiddelde bevindingen betreffende de hypothese worden meestal herhaald in het begin van de discussie. Het hoofddoel van de discussie is het vergelijken van de resultaten van dit onderzoek met andere onderzoeken. Daarnaast worden de relevante bevindingen genoteerd, die kunnen overeenkomen of kunnen botsen met eerdere onderzoeken. Het analyseren van verschillen in onderzoeken richt de aandacht op details en de mogelijkheid om het onderzoek te generaliseren naar andere delen van de samenleving. In sommige gevallen hebben de verschillen in resultaten tussen onderzoeken weinig te maken met de experimentele behandeling van het onderzoek, in plaats daarvan worden de verschillen in methode en metingen bekeken. Het is belangrijk om de onderzoeken met verscheidene resultaten grondig te vergelijken, omdat de gevonden verschillen verklaard moeten worden.
Een tweede component van de discussie is het in verband brengen van de resultaten met de theorie en geaccepteerde beginselen over het onderwerp. De poging om een resultaat logisch te verklaren bij een gebrek aan duidelijk bewijs noemt men een speculatie. Dit vereist een goede kennis over algemene discipline en is een ontzettende hersenkraker voor de meeste studenten. Het is een complexere intellectuele taak dan het schrijven van de gestructureerde componenten van een onderzoeksvoorstel. Het is belangrijk om het verschil tussen speculaties en verklaringen op te merken in onderzoeksartikelen. Het gevaar ontstaat dat men een speculatie opvat als een verklaring of een feit.
Het derde component in de discussiesectie zijn de beperkingen van het onderzoek. Dit kunnen bijvoorbeeld aparte variabelen zijn die niet adequaat gecontroleerd konden worden en daarmee de resultaten van het onderzoek hebben beïnvloed. De meest voorkomende beperkingen zijn een klein aantal deelnemers, het gebruik van een niet ideaal meetinstrument en een korte duur van het onderzoek.
Een vierde component zijn de implicaties waarin de mogelijke toepassing van de resultaten wordt besproken. De toepassing van het onderzoek in de samenleving is de reden waarom de meeste onderzoeken worden uitgevoerd, maar men moet oppassen dat de resultaten niet worden toegepast zonder rechtvaardiging. De meeste onderzoekers moeten zich verzetten tegen de neiging om een enkele studie in meerdere gevallen te gebruiken, omdat de situaties als verschillend worden aangemerkt. Wat er in een bepaalde omgeving met een groep mensen gebeurt, hoeft niet gelijk te zijn aan dezelfde groep mensen in een andere omgeving. Veel verschillende factoren maken de toepassing in de samenleving erg specifiek.
Tenslotte worden er aanbevelingen gedaan in de discussie. Dit kan behulpzaam zijn voor anderen om een plan voor een onderzoek te helpen opstellen. Typische aanbevelingen zijn om het onderzoek uit te voeren met andere deelnemers, alternatieve methodes of meetinstrumenten te gebruiken of om het onderzoek op lange termijn uit te voeren.
Hoofdstuk 7: Samenvatting en conclusie
In tijdschriftartikelen worden de samenvatting en conclusie aan het eind van de discussie geschreven, in een thesis is het vaak een kort apart hoofdstuk. De samenvatting is een overzicht van de behoefte voor het onderzoek, de constatering van het probleem, methode en resultaten. De conclusies zijn de constateringen die blijken uit de resultaten, het zijn geen speculatieve opmerkingen. Er wordt normaal gesproken een conclusie geschreven voor elke afzonderlijke hypothese.
Referenties
Referenties zijn geciteerde of gebruikte bronnen in de voorbereiding van een onderzoeksverslag. De referenties moeten zowel in de tekst als in de referentielijst, aan het eind van het verslag, genoteerd worden. Er worden verschillende referentiestijlen toegepast in publicaties, elk tijdschrift heeft zijn eigen stijl. Er bestaan echter drie basisstijlen.
1. De naam en jaar of auteur data stijl. Bijvoorbeeld Johnson and Kumquat, 2006. Dit is de gemakkelijkste manier omdat er geen nummering nodig is. Bij het gebruik van vele namen worden de woorden ‘et al.’ toegevoegd. Bijvoorbeeld Johnson et al. (2006)
2. Alfabet-nummer systeem. Hierin worden alle referenties alfabetisch gerangschikt. Alleen het nummer van de referentie wordt weergegeven in de tekst. Hierbij kan men het jaartal alleen in de referentielijst achterin vinden. Bijvoorbeeld ‘… variance in behavior (11).’
3. Orde van citatie systeem. Elk citaat wordt genoteerd volgens de opeenvolging van citaten in het verslag. Hierdoor zijn auteursnamen niet op alfabet genoteerd. Dit wordt in de tekst hetzelfde weergegevens als stijl 2, maar de referentielijst is geordend op de volgorde van voorkomen in de tekst.
In de referentielijst achterin het onderzoeksverslag worden alle gegevens van de referentie genoteerd. Behalve de auteur en het jaartal wordt de titel van het artikel en de titel van het tijdschrift genoteerd. Onderstaand volgen twee referenties, één van een tijdschrift en één van een boek.
* McCall, L.T., & Washington, S. D. (1990). Differences in recreational patterns of the elderly living in retirement centers. Leisure Sciences, 9, 167-171. (Tijdschrift)
* Day, R. A. (1983). How to write a scientific paper. Philadelphia: ISI Press. (Boek)
Het citaat wordt geplaatst op de plek in de tekst waaraan het gerelateerd is. Dit kan aan het eind van de zin zijn, maar ook op verschillende plekken in de zin. Als er in één zin meerdere onderzoeken voorkomen, wordt om verwarring te verkomen het citaat zo dicht mogelijk bij de actie gezet.
Appendix
Een appendix is een extra item dat soms wordt toegevoegd aan een onderzoeksverslag om verdere informatie toe te voegen. Dit kan voor sommige lezers behulpzaam zijn, maar het is niet noodzakelijk om het verslag te begrijpen. Het kan bijvoorbeeld de informed consent formulieren bevatten, correspondentiegegevens, datacollectie formulieren, extra tabellen of figuren, gebruikte vragenlijsten en details over het meetsysteem.
Hoofdstuk 6 - Het schrijven van een onderzoek
Het moeilijkste deel aan het schrijven van een onderzoeksverslag is waarschijnlijk het beginnen. Het begint allemaal met het zoeken van een onderwerp die jou interesseert. Je gaat veel tijd besteden aan het onderzoek en verslag, dus je kan het beste een onderwerp kiezen die je zoveel mogelijk waardeert. Kies een onderwerp gerelateerd aan jouw vakgebied in je studie. Start daarna met het lezen van algemene dingen over het gekozen onderwerp. Bedenk dat tijdschriftartikelen vaak onderzoeken aanhalen in de introductie, maar ook aanbevelingen geven in de discussiesectie. Het herhalen van een onderzoek is een goede manier om jezelf tot een onderzoek te brengen, vanaf het begin ligt er namelijk een gedetailleerd plan klaar.
Als het schrijven van een onderzoeksvoorstel zonder het daadwerkelijk uitvoeren van het onderzoek de intentie is, hoef je geen rekening te houden met de mogelijkheid tot geavanceerde laboratoria of het vinden van genoeg deelnemers. Op het moment dat je echter een masterthesis wilt schrijven moet je bedenken wat de beperkingen op het gebied van tijd en omgeving zijn bij het kiezen van een onderzoek. Daarnaast is het aan te raden de complexiteit van het onderzoek te beperken. Het is beter om een onderzoek moet één of twee variabelen op de juiste manier uit te voeren, dan een onderzoek met vijf variabelen uit te voeren van mindere kwaliteit.
Een andere zinvolle manier om te beginnen is het bediscussiëren van je plannen met de docent of andere docenten met deskundigheid van het onderwerp dat je wilt kiezen. Deze persoon kan feedback geven op je initiële plannen en je waarschijnlijk helpen om het onderwerp te fine-tunen, zodat het gebaseerd is op de laatste onderzoeksbevindingen. Het is noodzakelijk om zo snel mogelijk iets op papier te zetten. Hoe langer men wacht, hoe moeilijker het wordt om te beginnen. Het is raadzaam om vroeg met de eerste hoofdstukken te beginnen, want gedurende een semester zijn er dan steeds meer onderwerpen die je aan jouw onderzoek kunt koppelen. Daarnaast is het handig om vroeg feedback te ontvangen, zo kun je meteen aansturen op eventuele fouten.
Tips voor goed schrijven
Nadat er verschillende artikelen gevonden zijn die relateren met jouw onderzoek, is het vaak lastig om écht te beginnen. Een tip is om per gevonden artikel te kijken in welk hoofdstuk van jouw onderzoeksverslag dit relevant zou kunnen zijn. Vervolgens verdeel je de artikelen aan de hand van jouw hoofdstukindeling, zodat je alles per hoofdstuk gegroepeerd hebt. Daarnaast is het verstandig om een schema of overzicht te maken. Het onderzoeksverslag is natuurlijk al in hoofdstukken verdeeld, maar binnen een hoofdstuk kunnen ook verschillende secties worden gemaakt. Hier begin je mee door de artikelen te lezen die je op hoofdstuk gerangschikt hebt. De introductie, review van literatuur en discussie zijn apart. Het moeilijke is het schikken en vergelijken van een aantal onderzoeken. Het is handig om een tabel te maken waarin per artikel de benodigde gegevens staan; auteur, jaartal, onderwerp, design, resultaten en beperkingen.
Hiernaast is het belangrijk om woordenboeken en een thesaurus te gebruiken. Er is namelijk geen excuus voor verkeerd gespelde woorden. Een thesaurus is een soort naslagwerk die wordt gebruikt om het exacte woord voor een voorwerp of een woord met de gewenste connotatie te vinden. Het is daarnaast een handig hulpmiddel om alternatieve woorden te selecteren, zodat het onderzoeksverslag fijner te lezen wordt. Een andere tip voor het schrijven van een goed onderzoeksverslag is het regelmatig (laten) beoordelen van het verslag. Het verslag moet ten eerste beoordeeld worden op inhoud, waarnaar grammatica en herhaling van woorden worden bekeken. Check voor de zekerheid ook of alle hoofdstukken en alle secties behandeld worden in het onderzoeksverslag.
Plagiaat wordt gedefinieerd als het stelen en gebruiken van ideeën of woorden van een ander dan zichzelf. Als de exacte woorden van een ander worden gebruikt, is het noodzakelijk de referentie toe te voegen en de woorden tussen aanhalingsteken te citeren. Er moet duidelijk gemaakt worden dat de geschreven woorden niet de jouwe zijn. Op het moment dat een idee of gedachte bekend is geworden op basis van oude kennis of ervaring of het algemene kennis betreft, hoeft er niet geciteerd te worden. Het is erg afhankelijk van het ethische gevoel van de schrijver, die moet kunnen inschatten wanneer er plagiaat gepleegd wordt.
Veel gemaakte fouten
Breedsprakigheid (verbosity) houdt in dat er veel woorden worden gebruikt die niet daadwerkelijk nodig zijn. Het is een manier om het onderzoeksverslag langer te maken, maar het komt de kwaliteit van het verslag niet ten goede. Het schrijven van een onderzoek moet zo beknopt en zo duidelijk mogelijk. Dit bespaart tijd voor de lezers en daarnaast hebben tijdschriften vaak een bepaalde ruimte beschikbaar voor een artikel. De meeste onderzoekspublicaties zijn niet langer dan 25 pagina’s inclusief referenties, tabellen en figuren.
Verwaand (pendantic) schrijven is ook een veel gemaakte fout. Dit vindt plaats wanneer de schrijver ernaar streeft om zijn intellectueel niveau kenbaar te maken door zeldzame ongewone woorden te gebruiken. Het gebruiken van de wetenschappelijke terminologie behoort niet tot verwaand schrijven. De terminologie bestaat om een exacte betekenis aan sommige woorden te geven.
Daarnaast moeten clichés vermeden worden en moet men letten op de grammatica. De komma’s moeten op de juiste plaats geschreven worden, vage woorden en overbodige woorden moeten worden vermeden en men moet rekening houden met de jargon (het taalgebruik binnen een vakgebied). Symbolen moeten op de juiste manier worden genoteerd, woorden moeten op de juiste manier gebruikt worden en afkortingen moeten niet ergerlijk worden.
De tijd waarin het onderzoeksverslag geschreven wordt moet ook kloppen bij de verschillende hoofdstukken. Sommige secties worden in de toekomstige tijd geschreven, omdat het onderzoek nog uitgevoerd moet worden, zoals de methode. De review van literatuur wordt daarentegen in de verleden tijd geschreven omdat er onderzoeken worden beschreven die al plaats hebben gevonden.
Onderzoekers geven de voorkeur aan het schrijven van een onderzoeksverslag in de derde persoonsvorm, de passieve vorm. Sommige tijdschriften moedigen de auteurs echter aan om in de actieve vorm over hun onderzoek te schrijven. Dit is directer en minder breedsprakig dan de passieve vorm. Het schrijven van je verslag zonder emotie helpt om objectiviteit te verkrijgen. Tenslotte moeten getallen tot de tien uitgeschreven worden in woorden, tenzij dit getal voorkomt in een rij met getallen hoger dan tien. Bijvoorbeeld; 3 vrouwen, 56 mannen en 78 kinderen.
Deel 3. Statistiek
Hoofdstuk 7 - Statistische concepten
Statistiek als een mathematische discipline is de studie van de samenvatting, analyse en evaluatie van data en is noodzakelijk voor onderzoek. De primaire functie van statistiek is om een groot totaal aan data te verminderen tot zinvolle numerieke waarden. Zoals eerder aangegeven is onderzoek niet gebaseerd op het maken van onbevestigde vermoedens, intuïtie of verwachtingen. De meeste besluiten in een onderzoek zijn gebaseerd op het presenteren van harde feiten die door statistische technieken zijn verkregen. Professionals in elk vakgebied moeten minstens de basale kennis van statistiek hebben, zodat ze kunnen oordelen over het correcte gebruik en interpretaties van statistische procedures. Tegenwoordig hoeft de statistiek niet met de hand te worden berekend, maar is er talloze statistische software om berekeningen uit te voeren, data te verminderen en analyseren. De meeste wetenschappers hebben enige kennis van statistiek, maar zijn geen wiskundigen. Ze weten welke optie ze voor welk probleem moeten toepassen en hoe ze die resultaten moeten interpreteren.
Meetschalen
Meetschalen geven ons kennis over de gecompliceerdheid van de getallen of data die gegenereerd is. Het is belangrijk om de meetschalen te kennen, omdat het onze keuze over de juiste statistische procedure beïnvloedt. De nominale schaal is de meest rudimentaire, hij geeft ons alleen kennis over het verschil tussen getallen. Nominale schalen worden geassocieerd met categorische data, een observatie kan in de ene classificatie horen en daarom niet in de andere. Het gaat bij nominale schalen slechts om het benoemen van datgene dat gemeten is. Omdat zonder naamgeving niets onderscheiden kan worden, is elk van de andere meetniveaus minstens van nominaal niveau. Voorbeelden zijn geslacht, de provincie waar de deelnemer woont en de leeftijd die de deelnemer heeft.
De ordinale schaal demonstreert een rangschikking, het laat verschil en de richting van het verschil zien. Metingen op dit niveau kennen een natuurlijke ordening, de volgorde is duidelijk maar de verschillen zijn niet interpreteerbaar. Voorbeelden zijn rangen in het leger, verdeling tussen opleidingsniveaus, de beoordeling met cijfers in het Nederlandse onderwijs en de 5-puntsschaal.
Intervalschaal data hebben alle eigenschappen van ordinale metingen plus de gelijkheid van units. Een meting op intervalniveau betreft een grootheid die wordt uitgedrukt in een numerieke waarde en een eenheid. Het nulpunt is niet speciaal van belang, maar verschillen wel. Bij de temperatuur weten we dat 25 graden 5 graden warmer is dan 20 graden, en dat 15 graden 5 graden kouder is dan 20 graden. Op het moment dat het nulpunt wel aan de schaal toegevoegd is, noemt men dit een willekeurig nulpunt (arbitrary).
Ratioschaal metingen zijn het meest complex omdat het alle eigenschappen bezit van het intervalniveau plus een absoluut nulpunt. Een absoluut nulpunt op een schaal representeert de afwezigheid van het kenmerk dat de schaal meet. Meetvariabelen zoals gewicht, afstand en tijd hebben allemaal zinvolle absolute nulpunten. Nullen op een intervalniveau zijn niet absoluut. (Wat betekent 0 graden bijvoorbeeld? Betekent dat dat er geen temperatuur is?)
Niveau | Kenmerkend | Volgorde | Verschillen | Nulpunt |
Nominaal | x |
|
|
|
Ordinaal | x | x |
|
|
Interval | x | x | x |
|
Ratio | x | x | x | x |
Parametrische en nonparametrische statistiek
Parametrische statistiek wordt gebruikt wanneer onderzoeksdata op interval of rationiveau zijn en wanneer de deelnemerspopulaties normaal verdeeld zijn. Data op interval of ratio meetniveau zijn continue metingen. Dat impliceert dat ze met grote precisie gemeten zijn. Het niveau van precisie is alleen beperkt door de sensitiviteit van het gebruikte instrument. Nonparametrische statistiek wordt gebruikt wanneer data van nominaal of ordinaal meetniveau is of wanneer de deelnemerspopulatie niet normaal verdeeld is. Nominale data wordt geteld en ordinale data wordt gerangschikt. Parametrische statistiek is sterker dan nonparametrische statistiek omdat een verkeerde nulhypothese eerder verworpen wordt. Wanneer de parametrische statistiek niet kan worden toegepast, wordt gebruik gemaakt van de nonparametrische statistiek.
Beschrijvende en inferentiële statistiek
Statistiek kan ook geclassificeerd worden in beschrijvende of inferentiële statistiek, afhankelijk van het gebruik. Beschrijvende statistiek wordt gebruikt wanneer metingen van een behandeling of karakteristieken in een groep worden gedaan zonder enige intentie om deze metingen te generaliseren. Inferentiële statistiek wordt gebruikt wanneer er generalisaties of conclusies van een kleine groep voor een grotere groep worden gemaakt. Een generalisatie is een voorspelling die gemaakt wordt aan de hand van een meting van een representatieve groep en geschat wordt wat dit betekent in een grotere groep. Het vermogen om iets te concluderen is niet gebaseerd op de samenstelling van de statistiek, maar op het doel om deze statistiek te gebruiken. Voor juiste generalisaties is het noodzakelijk dat de deelnemers in de kleine groep een goede afspiegeling zijn van de grotere groep.
Sampling procedures
In de vorige alinea werd gesproken over grote en kleine groepen. Een betere benaming voor deze groepen zijn respectievelijk populaties en samples. Een populatie is een all-inclusive groep die operationeel gedefinieerd is door de onderzoeker. Deze definities variëren van grote tot specifieke beschrijvingen. Een bepaalde karaktertrek van een populatie wordt een parameter genoemd. Een sample is een representatief deel van de populatie dat de essentiële elementen bevat. Een bepaalde karaktertrek van een sample wordt een statistic genoemd. Wanneer onderzoekers geïnteresseerd zijn in het maken van generalisaties, dan hebben ze een sample nodig die een goede representatie van de populatie is.
Eén van de principes van inferentiële statistiek is dat deelnemers geselecteerd worden uit een populatie door middel van een random selectietechniek. Wanneer random sampling wordt gebruikt heeft iedere persoon in de populatie een gelijke kans om geselecteerd te worden voor de sample. Random sampling is een principe waarbij een onbevooroordeelde selectie uit de populatie wordt genomen. Bij een bevooroordeelde sample is er sprake van systematische error en geen goede representatie van de populatie.
Random sampling kan op vele manieren plaats vinden. Eén methode is het gebruiken van random nummers die door een computer of statistische tabellen gegenereerd kunnen worden. Deze procedure kan veel tijd besparen bij een grote populatie. Systematische telling is een andere methode die vooral wordt gebruik bij grote populaties. Met deze procedure gebruikt de onderzoeker een lijst van deelnemers in de populatie, zoals een telefoonboek of geregistreerde stemmers. Wanneer er zo’n lijst wordt gebruikt, is de sample bevooroordeeld door de kenmerken van de lijst. Op het moment dat je bijvoorbeeld een telefoonboek gebruikt, vallen alle mensen zonder telefoon af. Gelaagde random sampling is een methode waarbij de onderzoeker reden heeft om te geloven dat een populatie uit bepaalde subgroepen bestaat. De onderzoeker wil van elke subgroep een bijdrage hebben voor zijn onderzoek.
Over het algemeen geldt bij alle sampling methodes dat hoe kleiner de sample, hoe waarschijnlijker het wordt dat de representatie bevooroordeeld is en niet overeenkomt met de werkelijkheid. Vaak hebben onderzoekers bepaalde voorwaarden waar een deelnemer aan moet voldoen. Dit is geen random sampling en de mogelijkheid om te generaliseren wordt hierdoor beperkt. Toch is dit de manier waarop samples worden samengesteld als een random sampling van de populatie niet praktisch of mogelijk is. Uiteindelijk besluit de lezer of de generalisatie naar de samenleving gemaakt kan worden. Wanneer de deelnemers aan het onderzoek geselecteerd zijn, moet de onderzoeker beslissingen maken over de groepen waar de deelnemers in geplaatst worden. De onderzoeker hoort de deelnemers niet zelf in groepen in te delen, dit is namelijk een vorm van selectie bias. De deelnemers moeten gerandomiseerd ingedeeld worden, door middel van random nummers of bijvoorbeeld het geblinddoekt verdelen van codekaarten.
Geselecteerde statistische symbolen | |
X | een variabele |
X3 = 8 | de 3e variabele is 8 |
X2 = 64 | het kwadraat van de variabele is 64 |
N | totaal aantal observaties in een groep |
Σ | som van alle variabelen |
ΣX | som van alle X variabelen |
ΣX2 | kwadrateer alle X variabelen en tel ze op |
(ΣX)2 | sommeer alle X variabelen en kwadrateer het antwoord |
Hoofdstuk 8 - Centrale ligging (tendency), variabiliteit en de normaalcurve
Metingen van de centrale ligging en variabiliteit zijn de meest gebruikte en belangrijkste beschrijvende statistiek. Deze statistiek representeert de meest simpele vorm van statistische analyses en worden gebruikt in elke vorm van onderzoek. Ze liggen ten grondslag aan hogere technieken. Het concept van de normaalcurve is de hoeksteen van veel statistische technieken.
Centrale ligging
Er worden drie metingen van centrale ligging gebruikt: het gemiddelde, de mediaan en mode. Het gemiddelde is het rekenkundig gemiddelde van een verdeling van scores en wordt het meest gebruikt om de centrale ligging te bepalen. Het gemiddelde van een populatie wordt als µ gesymboliseerd en het gemiddelde van een sample als M. Het gemiddelde wordt gezien als de meest betrouwbare en betekenisvolle meting.
M = Σ X / N
De mediaan is het middelpunt in een verdeling, waar de helft van de scores boven de mediaan en de helft onder de mediaan liggen. Het symbool voor de mediaan is MED. Om de mediaan te vinden moeten de scores gerangschikt worden van hoog naar laag. De mediaan kan worden gevonden bij een kleine groep en bij atypische scores, het is simpelweg het middelste getal die genoteerd is. Het hoeft dus niet het gemiddelde te zijn.
MED = 6, 8, 11, 15, 19 = 11 (oneven aantal, mediaan bekend)
MED = 6, 7, 9, 10 = 6, (7+9)/2, 10 = 8 (even aantal, mediaan wordt berekend)
De mode is de onbewerkte meting van de centrale ligging en wordt niet vaak gebruikt. De mode is de meest frequente score in een verdeling. Het kan verkregen worden door een snelle inspectie van de gerangschikte verdeling. Als er twee getallen even vaak voorkomen, heeft de verdeling twee modes of is bimodaal. Als er drie getallen even vaak voorkomen, is de verdeling trimodaal.
Data: 10, 9, 9, 8, 7, 6, 6, 6, 4, 2
Mode: 6
Het primaire doel van het gemiddelde en de mediaan is het kenbaar maken van de meest typische scores in een verdeling. Deze statistiek wordt ook gebruikt om individuen met elkaar of met de verdeling te vergelijken.
Variabiliteit
Metingen van variabiliteit laten de verspreiding van de scores in een verdeling zien. Deze statistiek toont informatie over hoe de scores verspreidt zijn en of de scores gelijk zijn aan elkaar. Veel metingen worden gedaan met range, standaarddeviatie en variatiecoëfficiënt.
De range is de afstand tussen de eindpunten in een verdeling. De range wordt vastgesteld door de laagste score van de hoogste score af te trekken. De range is een zwakke meting van variabiliteit omdat het gebaseerd kan zijn op extreme scores en door enkel twee scores wordt bepaald. De range geeft geen informatie over de spreiding van de scores in de groep.
Data: 3, 4, 5, 6, 7, 8, 9
Range = 9 - 3 = 6
De standaarddeviatie wordt het meest gebruikt om de variabiliteit te bekijken en is veel sterker dan de range. De standaarddeviatie bevat informatie over de gemiddelde afstand tot het gemiddelde van elke score in de verdeling. De basis om een standaarddeviatie te berekenen is de deviatiescore, het verschil tussen het gemiddelde van elke score in de verdeling. De σ wordt gebruikt voor populaties en de SD voor samples. Uit tabel 8.1 blijkt dat de scores in de verdeling gemiddeld 2,9 verschillen van het gemiddelde. Een grotere standaarddeviatie betekent dat er meer variabiliteit is scores is of dat deze meer verspreid liggen. Een kleinere standaarddeviatie betekent dat de scores dichter bij elkaar liggen of meer gelijk zijn. Het kwadraat van de standaarddeviatie is de variantie. De variantie wordt uitgebreid gebruikt in de berekening van veel andere statistiek.
SD = √ ((ΣX2 / N ) - M2)
SD = 1 / N √ (N(ΣX2) - (ΣX)2)
Standaarddeviaties kunnen niet gebruikt worden om de variabiliteit van twee of meer verdelingen te vergelijken, waarbij de gemeten gemiddelden of variabelen niet hetzelfde zijn. Je kunt bijvoorbeeld geen SD van een bowltoernooi met de SD van een quiz met elkaar vergelijken. In dit geval moet men de variatiecoëfficiënt gebruiken. Het representeert de standaarddeviatie als percentage van het gemiddelde. Hoe groter de variatiecoëfficiënt, hoe meer variabiliteit in de scores. De variatiecoëfficiënt vergelijkt de variabiliteit van scores in verschillende verdelingen.
CV = (SD/M) x 100%
Normaalcurve
De normaalcurve is een statistisch en theoretisch model dat gebruikt wordt om data te visualiseren, om verdelingen van scores te interpreteren en om voorspellingen en waarschijnlijkheidsuitspraken te doen. De normaalcurve heeft verschillende karakteristieken. Het gemiddelde, de mediaan en de mode zijn identiek in een normaalcurve en bepalen het verticale middelpunt. De curve is perfect symmetrisch, de rechterzijde is samengesteld uit positieve waarden, de linkerzijde uit negatieve waarden. Het totale gebied onder de normaalcurve is 1 of 100%. Het percentage geeft het gebied onder de curve aan. Deze intervallen wordt ook wel betrouwbaarheidsintervallen genoemd. Voor opdrachten en extra voorbeelden zie pag. 93 t/m 96 van het boek.
68% van het gebied onder de curve is tussen + en - 1 standaarddeviatie van het gemiddelde. 95% ligt tussen + en - 1.96 standaarddeviatie van het gemiddelde en 99% ligt tussen + en - 2.58 standaarddeviatie van het gemiddelde. Je merkt aan de normaalcurve op dat de lijn nooit op 0 komt, de lijn en het aantal standaarddeviaties
Z-score
De z-score wordt gebruikt om een ruwe score van een verdeling om te rekenen in getallen van de normaalcurve, de standaarddeviatie units. Een z-score geeft de afstand van een ruwe score tot het gemiddelde in SD units. X is de ruwe score, M is het gemiddelde en SD de standaarddeviatie van de verdeling. Een positieve z-score vertelt hoeveel SD units de score boven het gemiddelde is, een negatieve z-score vertelt hoeveel SD units de score onder het gemiddelde is. De z-score informeert ons over de exacte positie van de ruwe score in een verdeling. Omdat 99% van de scores in een verdeling binnen 3 standaarddeviaties valt, loopt de z-score range van -3.0 tot + 3.0. De z-score kan ook gebruikt worden om ruwe scores van verschillende verdelingen met elkaar te vergelijken, dit wordt ook de standaard score genoemd.
z = (X - M) / SD
Niet normale verdeling en niet normale curves
Soms past een verdeling van scores niet in het model van de normaalcurve. Deze atypische verdeling wordt scheefheid (skewness) genoemd. Dit resulteert in een niet-normale curve. Een scheve curve heeft een staart die een paar scores representeert. Een positief scheve curve heeft zijn meeste scores aan de linkerkant, de staart wijst in de positieve richting. Een negatief scheve curve heeft zijn meeste scores aan de rechterkant, de staart wijst in negatieve richting. Het gemiddelde van een verdeling wordt meer beïnvloedt dan de mediaan door extreme scores. In een positief scheve curve, met weinig hoge scores, is het gemiddelde hoger dan de mediaan. In een negatief scheve curve, met weinig lage scores, is het gemiddelde lager dan de mediaan. Een simpele berekening voor de scheefheid van de curve is de mediaan van het gemiddelde af te trekken. Een positief antwoord betekent positieve scheefheid, een negatief antwoord betekent negatieve scheefheid. De mediaan wordt minder beïnvloed door de scheefheid dan het gemiddelde, daardoor is de mediaan een beter meetinstrument voor scheefheid. Wanneer een verdeling aanzienlijk scheef is zal hij niet nauwkeurig voldoen aan de eigenschappen van een normaalcurve.
Hoofdstuk 9 - Waarschijnlijkheid en hypothesetesten
Theoretische waarschijnlijkheid
Hypothesetesten zijn waarschijnlijk de belangrijkste statistische procedures die gebruikt worden door de onderzoeker. Deze testen worden uitgevoerd om objectieve beslissingen over de uitkomst van een studie te maken. Alle uitkomsten van een onderzoek hebben te maken met een bepaalde waarschijnlijkheid. Van geen enkele uitkomst kan men honderd procent zeker zijn. Statistische besluiten zijn nooit exact maar hebben altijd te maken met een zekere waarschijnlijkheid. Om statistische testen te kunnen begrijpen is kennis van deze waarschijnlijkheid nodig.
Klassieke of theoretische waarschijnlijkheid is de traditionele manier om de statistische waarschijnlijkheid van een gebeurtenis te uiten. Waarschijnlijkheidsbesluiten worden meestal aangemerkt met een p en worden geschreven in verdelingen van 1. Een waarschijnlijkheid van 1 is 100% zekerheid dat een gebeurtenis uitkomt, een waarschijnlijkheid van 0 betekent dat er geen kans is dat een gebeurtenis uitkomt. p is het aantal manieren waarop een gebeurtenis kan uitkomen verdeeld over het aantal mogelijke gebeurtenissen. De kans om bijvoorbeeld ‘kop’ te gooien bij een muntje werpen is 50%. De kans om ‘2’ te gooien bij het gooien van een dobbelsteen is 1/6 of 16.7%.
Waarschijnlijkheid en normaalcurve
Een bepaald gedeelte onder de curve is gerelateerd aan een bepaald percentage van een representatieve verdeling. Denk aan het aantal observaties in het gebied van de verdeling, denk aan het aantal mogelijke manieren waarop een gebeurtenis kan uitkomen en denk aan alle observaties in de verdeling. Voorspellingen gebaseerd op waarschijnlijkheid en conclusies mogen ook gemaakt worden over de populatie die de deelnemers representeren. Wanneer er bijvoorbeeld 300 mannen random geselecteerd zijn, vormen zij een goede representatie van de 5000 mannen in de samenleving. Als de deelnemers een goede representatie zijn van de samenleving kan men goede generalisaties maken. De waarschijnlijkheid kan bekeken worden met de berekende z-score, die vergeleken wordt met de z-score van de verdelingstabel. De normaalcurve kan gebruikt worden met een onderzoeksverdeling maar ook met een gehele populatie. Daarnaast kan de z-verdeling gebruikt worden om waarschijnlijkheidsverklaringen te maken aan de hand van de gebieden onder de curve. Het blijkt dat de waarschijnlijkheid en het vermogen tot het voorspellen van uitkomsten aan elkaar gelinkt is.
De ondergrens van een berekende z-score van een onderzoek is bijvoorbeeld -1.0 en de bovengrens 1.0. In de verdelingstabellen zie je dat 34% van het gebied onder de curve van het gemiddelde van 0 tot een z-score van 1.0 of -1.0 is. Het gebied tussen de z-score van
-1.0 en z-score van 1.0 is dus 68% van het gebied onder de curve. De waarschijnlijkheid dat een z-score tussen -1.0 en 1.0 valt is dus p = 0.68.
Hypothese testen
De onderzoekshypothese is eerder beschreven als het gevoel van de onderzoeker over de uitkomst van een onderzoek. Beslissingen om de hypothese aan te nemen of te verwerpen worden gemaakt op basis van objectieve en logische statistische processen, de hypothesetesten. De test is een strikt statistisch proces aan de hand van waarschijnlijkheidsverklaringen voor twee mogelijke toestanden. Onderzoekers gebruiken statistisch gereedschap om te bepalen of hun verwachtte resultaten juist waren. Het belang van het juist interpreteren van een hypothese moet niet onderschat worden. Alle hypothesetesten zijn gebaseerd op dezelfde logica.
De twee opties van realiteit die de hypothesetest kan voorspellen worden de nulhypothese en de alternatieve hypothese genoemd. Het is belangrijk om te realiseren dat de nul- en alternatieve hypothese slechts statistische statements zijn die gebruikt worden in een hypothesetest en geen enkele overeenkomst hebben met de onderzoekshypothese. De onderzoeker gebruikt de resultaten van de hypothesetest om zijn conclusies vorm te geven over de validiteit van de onderzoekshypothese.
De nulhypothese wordt traditioneel gedefinieerd als een statement waarin er geen verschil of geen relatie wordt gevonden in het onderzoek. Deze hypothese kan op veel verschillende manieren vorm gegeven worden, afhankelijk van de onderzoekscondities en de statistische test. De nulhypothese voor een onderzoek waarin twee populaties vergeleken worden is bijvoorbeeld H0: µ1 - µ2 = 0 of H0: µ1 = µ2. Deze hypothesen zeggen feitelijk hetzelfde, er is geen verschil tussen de gemiddelden van beide populaties. De alternatieve hypothese wordt op de volgende manier geschreven, H1: µ1 - µ2 ≠ 0 of H1: µ1 ≠ µ2. Hierin wordt verwacht dat er wel degelijk een verschil is tussen beide populaties. De alternatieve hypothese hoeft in dit geval geen informatie te geven over de grootte van het verschil.
Sampling error of steekproeffout
Het belangrijkste van een hypothesetest is de vraag of een geobserveerd verschil of relatie wordt beïnvloedt door een sampling error. Sampling errors vinden plaats wanneer random effecten een verschil veroorzaken in vergelijking tot het verwachtte. Sampling errors zijn altijd aanwezig omdat er maar een bepaalde kans bestaat dat de gebeurtenis plaatsvindt. De sampling error is de grootte van een eventuele fout die kan worden gemaakt.
Als iemand 10x een muntje opgooit, wat is het verwachtte aantal kop en wat is het verwachtte aantal munt? De waarschijnlijkheid zegt dat men 5x kop en 5x munt verwacht. Maar als er 6x kop en 4x munt wordt gegooid, denkt niemand dat er een bewerkte munt wordt gebruikt. De kans of de sampling error is hiervoor verantwoordelijk. Het gooien van 9x kop en 1x munt komt niet frequent voor, maar het kan gebeuren. Ook hier is de sampling error verantwoordelijk voor.
Significantieniveau
Het significantieniveau is het statistische referentiepunt die geselecteerd wordt om de nulhypothese te aanvaarden of verwerpen. Dit niveau wordt door de onderzoeker bepaald en definieert de waarschijnlijkheid van een gebeurtenis. De waarschijnlijkheid dat de sampling error een gebeurtenis veroorzaakt kan variëren tussen p=0 tot p=1 of van 0 tot 100%. De onderzoeker moet een punt vaststellen die kan bepalen of een gebeurtenis bij toeval voorkomt of waarbij toeval geen rol speelt. De meeste onderzoekers kiezen een waarde van 5% of 1% om statistische besluiten te maken. Op het moment dat een onderzoeker een significantieniveau van 5% kiest, betekent dit dat elke gebeurtenis die door toeval kan optreden vaker dan 5% van de tijd wordt veroorzaakt door een sampling error.
Type 1 en 2 fouten
Een type 1 fout wordt gemaakt wanneer een nulhypothese wordt verworpen terwijl hij eigenlijk juist is. De kans op het maken van een type 1 fout is het alfaniveau of α. Alfa is de onbetrouwbaarheid van de toets. Een alfa van 0.01 betekent dat er 1% kans is dat de nulhypothese verworpen wordt terwijl hij eigenlijk waar is. Het verlagen van de alfa verkleint de kans op het maken van een type 1 fout, maar vergroot de kans op het maken van een type 2 fout. Een type 2 fout wordt gemaakt wanneer een onjuiste nulhypothese niet verworpen wordt. Met andere woorden wordt een juiste alternatieve hypothese onterecht verworpen. De kans op het maken van een type 2 fout wordt het bètaniveau of β genoemd. Hoe hoger alfa wordt gemaakt, hoe groter de kans op een type 1 fout wordt. Daarentegen wordt bij een hogere alfa de kans op een type 2 fout verminderd.
Beslissing | Werkelijkheid | ||
| H0 waar | H0 niet waar | |
H0 niet verworpen | OK, kans 1 - α | Type 2 fout, kans β | |
H0 wel verworpen | Type 1 fout, kans α | OK, kans 1 - β |
Andere factoren in de hypothesetest
In een hypothesetest rekent de onderzoeker met passende statistiek en dit wordt vergeleken met een waarde van een statistische tabel. Deze tabellen worden steekproefverdelingen (sampling distributions) genoemd. Steekproefverdelingen zijn waarschijnlijkheidstabellen die waarden voorspellen voor de kans dat bepaalde statistiek aanwezig is. De normaalcurve is gebaseerd op een waarschijnlijkheidsverdeling met de z-score als zijn statistiek. De kans is
p = 0.05 dat een z-score groter dan ± 1.96 is, de kans is p = 0.01 dat een z-score groter dan ± 2.58 is. De onderzoeker vergelijkt de berekende statistiek gebaseerd op onderzoeksdata met de statistiek in een tabel van een steekproefverdeling met de gewenste alfawaarde. De statistiek van de steekproefverdeling wordt kritische statistiek genoemd. Om deze statistiek te bepalen is het noodzakelijk om het aantal vrijheidsgraden te berekenen. Als de berekende statistiek lager dan de kritische statistiek is, wordt de nulhypothese geaccepteerd. Als de berekende statistiek groter of gelijk aan de kritische statistiek is, wordt de nulhypothese verworpen.
Stappen in de hypothesetest
Je begint met het opstellen van de nulhypothese en de alternatieve hypothese. De nulhypothese wordt in eerste instantie aangenomen totdat het tegendeel bewezen is. Daarna wordt het significantieniveau bepaald, vaak wordt 0.05 of 0.01 gebruikt. Vervolgens wordt bekeken welke statistische toetsen uitgevoerd gaan worden in het onderzoek. Deze mogelijkheden worden later nog besproken. De vrijheidsgraden worden berekend en de kritisch statistische waarde wordt opgezocht in de verdelingstabel. Daarnaast worden de kritische waarden op de normaalcurve geplaatst om de gebieden ‘verwerpen’ en ‘accepteren’ van elkaar te scheiden. De statistiek wordt berekend en ook op de normaalcurve geplaatst. De nulhypothese kan aan de hand van de normaalcurve met ingevulde waarden geaccepteerd of verworpen worden. Tenslotte kunnen er statistische en onderzoeksconclusies getrokken worden. Twee uitgewerkte voorbeelden van deze stappen kan je vinden op pagina 113 en 114.
Eenzijdige en tweezijdige toetsen
Wanneer een onderzoeker geen logische hypothese kan maken over de richting van de uitkomst van een onderzoek, moet een tweezijdige toets gebruikt worden. Als je op basis van theorie of andere resultaten echter een duidelijke verwachting hebt omtrent de richting van de uitkomst, kan je kiezen voor een eenzijdige toets. Op het moment dat je geïnteresseerd bent in of twee groepen verschillen, kan een tweezijdige test gebruikt worden. Wanneer je geïnteresseerd bent in welke groep er beter presteert, kan een eenzijdige test worden gebruikt. Bij een eenzijdige toets wordt gekeken naar één uiterste en wordt het overschrijdingsgebied aan één kant van de normaalcurve geplaatst. Het is makkelijker om een nulhypothese te verwerpen met een eenzijdige toets, omdat alle waarschijnlijkheid richting één kant van de verdeling is verschoven. Dit betekent dat er een kleinere kritische waarde gekozen moet worden bij een eenzijdige test. Bij eenzijdige toetsing is de alternatieve hypothese gelijk aan de onderzoekshypothese, dit bevat namelijk de verwachtingen van de onderzoeker. Als in het onderstaande figuur de berekende t-waarde in het zwarte gebied valt, moet de nulhypothese verworpen worden. Als de berekende t-waarde in het witte gebied valt, moet de nulhypothese geaccepteerd worden.
Interpretatie van de hypothesetoets
In onderzoeken lees je vaak ‘er was een significant verschil tussen de twee groepen, p ≤ 0.01’ of ‘er was geen significant verschil tussen de twee groepen p > 0.05’. Als er een significant verschil wordt gevonden in een onderzoek, wordt de kleiner of gelijk aan pijl gebruikt. Dit betekent dat de waarschijnlijkheid dat de sampling error de statistiek heeft veroorzaakt kleiner of gelijk aan het alfaniveau is. Omdat statistiek van deze omvang zelden door toeval voorkomt, wordt er geconcludeerd dat iets anders dan de sampling error voor dit verschil of deze relatie heeft gezorgd. Er wordt dus geconcludeerd dat het verschil of de relatie door ‘iets echts’ wordt bepaald. Wanneer er geen significant verschil is gevonden, wordt de groter dan pijl gebruikt. Dit betekent dat de kans groter is dat de sampling error ervoor gezorgd heeft dat dit verschil of deze relatie veroorzaakt werd. De sampling error is dus groter dan de alfawaarde. Bij de conclusies van de hypothesetoets moet altijd aangegeven worden met welk significantieniveau gemeten is.
Praktische en statistische significantie
Het significantieniveau heeft niks te maken met de omvang of betekenis van een geobserveerd effect. Focus je niet alleen op het wel/niet significant zijn van een verschil of een relatie, maar bekijk de grootte van het effect. Met een groot aantal deelnemers kan de omvang van het verschil klein zijn, maar toch statistisch significant. Hypothesetesten zijn gebaseerd op behoorlijke niveaus van waarschijnlijkheid om goede onderzoeksbeslissingen te maken, maar ze bieden geen eenduidig bewijs. Het is verleidelijk om de resultaten of analyses te overschatten, dit is een vorm van objectief bewijs. De onderzoeker moet de hypothesetoets op de juiste manier gebruiken en de resultaten op een juiste manier interpreteren.
Statistiek | p | Alfa | Besluit |
t = 2.50 | .0367 | .05 | Omdat p .0367 minder of gelijk is aan .05, is t = 2.50 statistisch significant (p ≤ .05) en de nulhypothese wordt verworpen. |
t = 1.40 | .4520 | .05 | Omdat p .4520 groter is dan .05, is t = 1.40 niet statistisch significant (p ≤ .05) en de nulhypothese wordt niet verworpen. |
Hoofdstuk 10 - Relaties en voorspellingen
Pearson correlatie
Onderzoekers zijn meestal geïnteresseerd in het bestuderen van de relatie tussen twee of meer variabelen. De correlatie is de statistiek die een kwantitatief gemiddelde van een uitgedrukte relatie voorspelt en wordt uitgebreid gebruikt in onderzoek. De correlatie wordt ook gebruikt in voorspellingen, die in het dagelijkse leven maar ook in onderzoek gebruikt worden. De dikte van de huidplooi wordt bijvoorbeeld gebruikt om de dichtheid van het lichaam te bepalen, die vervolgens weer gebruikt wordt om lichaamsvet te schatten.
Een positieve correlatie betekent dat wanneer een bepaalde variabele groter wordt, de waarde van de andere variabele ook neigt toe te nemen. Het woord ‘neigen’ is belangrijk in deze definitie, want een achtjarig kind kan bijvoorbeeld ook kleiner zijn dan een zevenjarig kind. In een scattergram kan de relatie tussen twee variabelen duidelijk gemaakt worden. Wanneer de geplotte data diagonaal van linksonder tot rechtsboven verschijnt, is de correlatie positief. Bij het vorige voorbeeld betekent dit dat de lengte van een kind toeneemt aan de hand van zijn leeftijd. Een negatieve correlatie betekent dat wanneer de waarde van een variabele groter wordt, de waarde van de andere variabele neigt te verminderen. Een voorbeeld hierbij is de kracht in de spieren die afneemt bij het stijgen van de leeftijd. In een scattergram wordt dit weergegeven als een patroon van linksboven naar rechtsonder.
De grootte van de correlatie kan ook geschat worden aan de hand van de data in een scattergram. De data liggen rondom een denkbeeldige lijn, de regressielijn. Als de individuele datapunten in een perfecte rechte lijn liggen, is de correlatie perfect. Over het algemeen liggen deze datapunten echter rondom de lijn. Naar mate de data dichterbij de regressielijn ligt wordt de correlatie hoger en sterker. Hoe groter de spreiding van de data, hoe lager de correlatie. Op het moment dat er geen enkel patroon wordt gevonden kan men stellen dat de data slecht of niet gecorreleerd zijn aan elkaar.
De Pearsons correlatie of r wordt gebruikt om te meten hoe twee variabelen gerelateerd zijn aan elkaar. De Pearson correlatie wordt bijvoorbeeld gebruikt om de relatie tussen een verticale sprong en beenkracht te schatten. De waarden moeten gekwadrateerd, gesommeerd en vermenigvuldigd met de andere passende waarden. (H0: r = 0, H1: r ≠ 0).
Pull-ups | Push-up | ||||
Subject | X | Y | X2 | Y2 | XY |
A | 8 | 17 | 64 | 289 | 136 |
B | 5 | 12 | 25 | 144 | 60 |
C | 7 | 11 | 49 | 121 | 77 |
D | 12 | 26 | 144 | 676 | 312 |
E | 2 | 4 | 4 | 16 | 8 |
N = 5 | ∑X = 34 | ∑Y = 70 | ∑X2 = 286 | ∑Y2 = 1246 | ∑XY = 593 |
r = N ∑ XY – (∑X) (∑Y) / √ (N ∑X2 – [∑X]2 ) (N ∑Y2 – [∑Y]2 )
r = 5(593) – (34)(70) / √ (5(286) - 342) (5(1246) - 702) = .969
De onderzoeker wil graag drie dingen weten over de correlatie. Ten eerste of het significant is, ten tweede of het positief of negatief is en tenslotte hoe sterk de relatie is. Als de relatie significant is moeten de andere twee vragen beantwoord worden. Als de relatie niet significant is zijn de laatste twee vragen niet relevant. Als de correlatie significant verschilt van nul, wijst dit op een bestaande relatie en niet op toeval of sampling error. Correlatiecoëfficiënten variëren van -1 tot +1. Een Pearsons correlatie van .969 is bijna een perfecte positieve correlatie. Als je voor bovenstaand voorbeeld de kritieke waarde van r opzoekt met het aantal vrijheidsgraden (df = N – 2, is 5 – 2 = 3) zie je dat r hoger of gelijk aan .878 moet zijn bij een tweezijdige toets met significantieniveau .05. De berekende r voldoet hieraan en daarom bestaat er een echte relatie. De nulhypothese wordt hierbij verworpen en de alternatieve hypothese wordt aangenomen. De gevonden correlatie betekent dat wanneer een deelnemer beter is in het maken van pull-ups ook beter is in het maken van push-ups.
Wanneer een tweezijdige toets wordt gebruikt en er geen enkele schatting gemaakt kan worden over de richting van de relatie, worden de hypotheses gesteld in de nulvorm. De correlatiecoëfficiënt is nul (geen relatie) of geen nul (wel relatie). Er wordt een eenzijdige toets gebruikt als onderzoekers redelijk zeker zijn over de richting van de relatie. De nulhypothese wordt dan op een andere manier genoteerd, H0: r ≤ 0. De alternatieve hypothese is op dat moment H1: r > 0. Bij een eenzijdige toets moet ook de tabel van kritieke waarden voor de eenzijdige toets worden gebruikt. Dit verhoogt de waarschijnlijkheid van het vaststellen van een significante relatie. Het gebied onder de curve waarin de hypothese verworpen wordt, wordt in zijn geheel verplaatst naar het positieve deel van de curve. De kritieke waarde bevindt zich dus dichter naar het midden vergeleken met de kritieke waarde bij een tweezijdige toets. Wanneer er een negatieve relatie wordt verwacht bij twee variabelen, is de nulhypothese H0: r ≥ 0 en is de alternatieve hypothese H1: r De sterkte van een correlatie is verschillend van de significantie. Het is verkeerd geïnterpreteerd dat de significantie aangeeft of een relatie sterk is. De sterkte van de correlatie kan alleen gebaseerd worden aan de hand van de grootte van r. Voor positieve en negatieve correlaties geldt hetzelfde, .25 en lager is zwak, tussen .26 en .50 is de relatie gemiddeld, tussen .51 en .75 goed en een correlatie hoger dan .76 is sterk.
De meest betekenisvolle manier om de sterkte van de correlatie te berekenen is aan de hand van de berekende determinatiecoëfficiënt (r2). Dit is een waarde van variantie die door twee variabelen wordt gedeeld. De variantie die gedeeld wordt door twee variabelen wordt de algemene variantie genoemd (common variance). Dit is simpelweg de r2 x 100. De overblijvende variantie wordt vastgesteld door het berekenen van de coëfficiënt van niet-determinatie, (1-r2) x 100. Deze waarde representeert de variantie die uniek is voor elke variabele en niet gedeeld wordt met elkaar. Om deze reden wordt dit ook wel de specifieke variantie genoemd. Negatieve correlaties impliceren geen zwakke relatie, maar simpelweg de richting van de relatie. Een gekwadrateerde negatieve correlatie is positief. In het voorbeeld van de vorige pagina is de gedeelde variantie 94%, namelijk .9692 x 100. De twee variabelen hebben dus veel overeenkomsten. 6% van de variantie wordt niet gedeeld en is toegeschreven aan andere factoren. De algemene en specifieke variantie kan afgebeeld worden in een Venn diagram. Dit is een cirkel waarin het percentage algemene variantie en het percentage specifieke variantie worden getoond. In het algemeen geldt dat hoe meer variantie verklaard wordt, hoe betekenisvoller de relatie tussen twee variabelen is.
Onderzoekers zijn vaak geïnteresseerd in de mate waarin een variabele een verandering veroorzaakt in een andere variabele. Enkel correlatie onderzoekt de oorzaak en het effect van een relatie niet. Er bestaan vaak misverstanden over het feit dat een correlatie een oorzaak en gevolg relatie zou voorspellen, dat is namelijk niet het geval. Sommige variabelen hebben deze relatie wel, maar enkel de Pearson correlatie kan dit niet verklaren. De correlatie is eigenlijk de statistiek van de keuze, want wanneer er een significant en sterke relatie wordt gevonden, dan kunnen experimentele studies worden opgesteld om de echte oorzaken en effecten te onderzoeken. Een voorbeeld waaruit blijkt dat de correlatie niet gebruikt kan worden om de oorzaak en effect te verklaren blijkt hieruit: Een dermatoloog ontdekt dat er meer mensen verbranden in een hete zomer, maar door de hete zomer wordt de prijs van ijsjes verlaagd. Uit dit onderzoek werd geconcludeerd dat ijsjes voor meer verbrande mensen zorgen.
Een veel gebruikte manier om een aantal correlaties te rapporteren is in een correlatiematrix. Een tabel maakt de onderzochte data overzichtelijk. Elke variabele wordt genummerd en in een kolom geplaatst, maar dezelfde variabelen worden ook bovenaan de tabel geplaatst. De kolom of de rijen moeten geïdentificeerd worden, maar beiden hoeft niet. De correlatie van een bepaalde variabele met zichzelf wordt niet weergegeven, dit zal namelijk altijd 1 zijn. Er mist altijd een deel van waarden in de tabel. Deze waarden zijn niet nodig, omdat de tabel gespiegeld kan worden.
Correlatiematrix |
|
|
|
|
Variabele | 1 | 2 | 3 | 4 |
1. Lengte (cm) | - | .70 | .80 | .40 |
2. Gewicht (kg) |
| - | .50 | .40 |
3. Beenlengte (cm) |
|
| - | .20 |
4. Gewrichtsomtrek (cm) |
|
|
| - |
De correlatie wordt voor verschillende doeleinden gebruikt. Ten eerste voor de betrouwbaarheid. De betrouwbaarheid verwijst naar de consistentie van de metingen. Hoe hoger de correlatie, hoe hoger de betrouwbaarheid. Daarnaast wordt de correlatie gebruikt voor de objectiviteit van een onderzoek. De objectiviteit is de betrouwbaarheid van metingen tussen verschillende onderzoekers. Een hoge correlatie tussen twee onderzoekers wijst op een goede consistentie in de metingen. Tenslotte wordt de correlatie gebruikt voor de validiteit. De validiteit vertelt hoe goed een test meet wat het beoogt te meten. Dit wordt meestal getest door de resultaten van een nieuwe test te correleren met de resultaten van de gouden standaard. Een hoge correlatie tussen de resultaten van twee testen toont een goed niveau van accuraatheid tussen de twee testen.
Enkele lineaire regressie
De meeste mensen zijn vaak betrokken bij voorspellingen. Een testscore op een Universiteit wordt bijvoorbeeld vaak gebruikt om het academische succes te voorspellen. Simpele of enkele lineaire regressie wordt gebruikt om een voorspelling van een variabele te maken gebaseerd op de correlatie tussen twee variabelen. Het is de simpelste manier van voorspelling, omdat er maar één voorspellende variabele wordt gebruikt. De vergelijking van de lineaire regressie is gebaseerd op een formule voor een rechte lijn (Y’ = bX + a) en voorspelt de waarde Y op basis van de waarde X. De ‘b’ en ‘a’ in de formule moeten berekend worden aan de hand van de score voor de onafhankelijke variabele X.
‘b’ is de helling van de regressielijn en is r (Sy/Sx), deze kan positief of negatief zijn. ‘a’ is de y intercept of de plaats waar de regressielijn de nullijn snijdt, dus My – bMx. My is het gemiddelde van de Y waarden, Mx is het gemiddelde van de X waarden. Sy is de standaarddeviatie van de Y waarden en Sx is de standaarddeviatie van de X waarden.
Een scattergram wordt vaak via de computer geconstrueerd. De punten waar de score van elke deelnemer samenvalt wordt geplot in een grafiek. Deze lijn wordt door het gemiddelde van alle X en alle Y scores getrokken. De lijn kan gebruikt worden om een score Y te voorspellen door het punt te plotten op regressielijn die de X-score snijdt. De beste voorspelde score voor Y is de waarde die snijdt met de regressielijn op hetzelfde punt als de geassocieerde X-score.
Het is handig om waarden te voorspellen, maar de voorspelling is beperkt tenzij hij redelijk nauwkeurig is. Bijna alle voorspellingen tonen fouten tenzij ze gegenereerd werden door perfect gecorreleerde variabelen. Dit is echter zeldzaam. De standaard error van schatting (SEE) is de gemiddelde fout in een voorspellingsvergelijking. Statistisch gezien is het de standaard deviatie van actuele scores rond de voorspellingslijn of de voorspelde Y-waarde. Het verschil tussen de actuele score van een deelnemer en een voorspelde score van de regressielijn is de geschatte fout of een rest (residual). De SEE kwantificeert de fout en daardoor de accuraatheid van een voorspelling op een voorspellingslijn. SEE= Sy √ (1 - r2). Een kleine SEE betekent een grotere nauwkeurigheid van de voorspelling en wordt gevonden wanneer twee variabelen goed gecorreleerd zijn met elkaar. Als de correlatie één is, is er geen voorspellingserror of fout en is de SEE nul. Normaal gesproken valt 68% van alle voorspelde scores binnen 1.0 SEE van de voorspellingslijn, 95% binnen 1.96 SEE en bijna alle scores binnen 2.58 SEE. Deze percentages zijn vertrouwensintervallen.
Onderzoekers willen een variabele zo accuraat mogelijk voorspellen en streven ernaar om variabelen te gebruiken die zo hoog mogelijk gecorreleerd zijn. Daarnaast willen ze een redelijk grote deelnemersgroep hebben waardoor de correlatie verhoogd en de standaarddeviatie van de Y-waarde verminderd. De combinatie van een hoge correlatie en een lage standaarddeviatie resulteert in goede voorspelde waarden en een lage SEE. Een determinant van correlatie en dus SEE is het concept bekend als beperkte range. De grootte van de correlatie en de nauwkeurigheid van een schatting worden beide direct beïnvloedt door de rang of omvang van scores. Een smalle of beperkte omvang vermindert de correlatie terwijl een grote omvang de correlatie vergroot. De grootte van de SEE zou een primaire factor moeten zijn in het bepalen wanneer een voorspelling nauwkeurig genoeg is om te gebruiken.
Multipele regressie
Multipele regressie is een middel om een voorspelling te maken van twee of meer onafhankelijke variabelen. Het is meestal nauwkeuriger dan enkele lineaire regressie omdat er meer informatie gebruikt wordt bij het maken van de voorspelling. Het is logisch dat een voorspelling nauwkeuriger wordt op het moment dat er meer informatie beschikbaar is. De berekening van een multipele regressievergelijking is een uitbreiding van de rechte regressielijn. Voor elke variabele wordt een bX component toegevoegd aan de vergelijking. Elke variabele levert namelijk zijn bijdrage aan de vergelijking.
Y’ = a + bX1 + bX2 + bX3 …
Een computerprogramma berekent eerst de correlatie van elke onafhankelijke variabele. Variabelen worden geselecteerd op volgorde van sterkste naar zwakste voorspeller voor de variantie. Hoe meer variabelen er aan de voorspelling worden toegevoegd, hoe meer variabelen er verklaard moeten worden. De multipele correlatie, R, is de correlatie van twee of meer onafhankelijke variabelen samen met de afhankelijke variabele.
Het is belangrijk om je af te vragen hoeveel variabelen nodig zijn om een goede voorspelling te maken. Daarnaast moet je weten of het toevoegen van variabelen de nauwkeurigheid van de voorspelling verbetert. Onderzoekers gebruiken meestal het aantal factoren dat in vorige onderzoeken ook wezen op een goede voorspelling. Extra factoren kunnen toegevoegd worden omdat ze logisch relateren aan andere variabelen. De computer sorteert de variabelen op basis van individuele correlatie. Wanneer er geen significante verbetering optreedt bij het toevoegen van een extra variabele, is deze voorspelling het meest nauwkeurig. De sterkte voorspellers na de eerste of tweede tonen vaak geen goede correlatie met de andere voorspellende variabelen. Dit gebeurt omdat deze variabelen iets unieks of nieuws meten in vergelijking met de reeds toegevoegde variabelen. De onderzoekers beperken het aantal variabelen meestal tot degene met een logische basis voor inclusie. De plus en mintekens in de vergelijking tonen of de correlatie tussen elke voorspellingsvariabele en de afhankelijke variabele positief of negatief was.
De voorspellingsvergelijking is alleen valide voor de deelnemers met karaktertrekken identiek met de personen in de omgeving. Dit wordt de populatie specificiteit genoemd. Om een voorspelling te ontwikkelen voor een breder spectrum van de populatie moeten deelnemers gebruikt worden met een verscheidenheid aan karaktertrekken, er moet een algemene vergelijking gemaakt kunnen worden. Een belangrijk criterium voor het maken van een voorspellingsvergelijking is een nauwkeurige meting van de onafhankelijk variabele. Als de nauwkeurigheid van deze waarde slecht is, kan de uitkomst niet geschat worden.
Partiële correlatie
Een partiële correlatie r12.3 voorspelt de relatie tussen twee variabelen met de variantie van een derde variabele die verwijderd, verdeeld of constant gehouden wordt. Het subscript 1 en 2 verwijzen naar de twee variabelen waarin geïnteresseerd is, subscript 3 verwijst naar de variabele waarvan de invloed gecontroleerd wordt. Het doel van de partiële correlatie is om een correlatie te krijgen die zuiverder of minder corrupt is dan de Pearson correlatie. Een beperking van de Pearson correlatie is dat de invloed van andere variabelen gemakkelijk over het hoofd gezien kan worden. Partiële correlaties zijn normaal gesproken kleiner dan Pearson correlatie. Onderzoekers willen soms de verbindingen controleren van verscheidene variabelen in plaats van één variabele. Dit wordt gedaan door het gebruik van eerste, tweede of derde orde partiële correlatie. Het resultaat is een juiste correlatie omdat de variantie is aangepast voor andere variabelen.
Factoranalyse
Factoranalyse is een methode waarin de correlatie gebruikt wordt om de gemeenschappelijkheid in een groot aantal metingen te bepalen. Een toepassing in het veld is het bepalen van het aantal en de soorten van te gebruiken testmateriaal wanneer er een groot aantal mogelijke testen beschikbaar zijn. Omdat de testen binnen één cluster goed gecorreleerd zijn hoeft een onderzoeker slechts één of twee testen binnen elke cluster te selecteren. Een factor is een groep van metingen die hypothetisch gezien iets gemeenschappelijk hebben. Factoren van menselijke intelligentie bevatten bijvoorbeeld verbaal vermogen, kwantitatief vermogen, abstract beredeneren enzovoort.
Hoofdstuk 11 - Vergelijken van gemiddelden
Professionals gebruiken onderzoek vaak om het effect van een onafhankelijke variabele op een afhankelijke variabele te bepalen of het effect van meer dan één onafhankelijke variabele te bepalen. De uitvoering van een afhankelijke variabele wordt bijvoorbeeld voor en na een onderzoeksperiode gemeten en het verschil in prestatie tussen twee groepen wordt vergeleken. Wanneer er slechts twee scores vergeleken worden, wordt een t-test gebruikt voor de vergelijkingen. Als er meer dan twee scores worden vergeleken wordt in de meeste gevallen de analyse van variantie (ANOVA) gebruikt.
De criteria voor de t-test of ANOVA zijn:
1. Gegevens zijn afkomstig uit normaal verdeelde populaties.
2. Gegevens representeren random samples uit de populatie.
3. De variantie in elke groep is gelijk.
4. De data zijn absoluut, interval of ratio. De data is continu en hebben gelijke intervallen.
Het wordt niet aangeraden om een nonparametrische test te gebruiken. Deze zijn minder krachtig en een betekenisvolle significantie is moeilijker te vinden. Tenzij de data niet normaal verdeeld is, moet er een parametrische test gebruikt worden.
Afhankelijke t-test
Het doel van een afhankelijke t-test is het vergelijken van twee gemiddelde scores die gerelateerd zijn aan elkaar. De analyse bevat normaal gesproken data van een pre-test en een post-test binnen één groep of van twee groepen die een kenmerk gemeen hebben. In elke situatie zijn de scores gerelateerd of gecorreleerd met elkaar. De formule om een gecorreleerde t-test te berekenen is als volgt, waarin D het verschil tussen de pre en post score is voor elke deelnemer en N het aantal deelnemers. Een voorbeeld van de uitwerking staat op pagina 147. Het aantal vrijheidsgraden bij een afhankelijke t-test is df = N - 1. Vervolgens wordt de kritische waarde van t opgezocht om te bepalen of de t ratio significant is. Als de berekende t hoger is dan de kritische waarde wordt de nulhypothese verworpen.
t = (Σ D /N) / 1/N √ ([NΣD2 - (ΣD)2] / (N-1))
Onderzoekers die gecorreleerde t-testen gebruiken zijn vaak zeker over de richting van de verandering, meestal toont de richting een verbetering van de scores. Directionele hypotheses gebruiken vaak een eenzijdige toets, waardoor de kans vergroot wordt op een significant verschil. Een zinvol gebruik in het interpreteren van de resultaten van een statistische test is het bepalen van de grootte van de verandering als resultaat van de behandeling. Dit kan gedaan worden door het percentage van verandering te bepalen van pre-test scores in vergelijking met post-test scores.
Onafhankelijke t-test
De onafhankelijke t-test bepaalt of het gemiddelde van twee aparte groepen significant verschilt. Na het berekenen van de t-ratio wordt de tabel erbij gepakt om te kijken of deze gevonden waarde significant is. Omdat er twee onafhankelijke groepen met elkaar worden vergeleken is het aantal vrijheidsgraden df = (N1+ N2) - 2. Wanneer in de tabel het juiste aantal vrijheidsgraden niet aangegeven staat, wordt de volgende laagste waarde gebruikt. Dit is acceptabel omdat de kritische waarden slechts licht veranderen. Wanneer de t-waarde hoger dan de kritische waarde is, wordt de nulhypothese weer verworpen en de alternatieve hypothese geaccepteerd. De formule waarmee de t-ratio berekend kan worden in een onafhankelijke t-test is hieronder vermeld. Een voorbeeld staat op pagina 150.
t = (M1 - M2) / √ ([ ((N1 - 1)S12 + (N2 - 1)S22) / (N1 + N2 - 2) ] [ (N1 + N2) / N1N2 ]
Omega kwadraat
Wanneer er veel vertrouwen bestaat dat het verschil tussen twee groepen significant is, hoeveel van het verschil kan toegeschreven worden aan deelname in de twee sporten? Deze informatie is net zo belangrijk als de kennis over het bestaan van de significantie. Met het gebruik van de Pearson correlatie, werd de r2 gebruikt om de variantie te bepalen van twee gemeenschappelijke variabelen. De variantie werd gebruikt als meting van de sterkte van de correlatie. Daarom is het ook nodig om de sterkte of kracht van het verschil in de gemiddelde scores te bepalen. De statistiek die hiervoor gebruikt wordt heet de omega kwadraat (Ω2). De formule wordt hieronder vermeld. De uitkomst van de omegakwadraat toont de variantie van verschil aan tussen twee groepen dankzij het effect van de onderzochte variabele. Om de resultaten van een onderzoek te bekijken is een onafhankelijke t-test nodig om te bepalen of er een verschil in de gemiddelden is. Daarnaast is de omegakwadraat nodig om de grootte van het verschil te berekenen. Bij grotere deelnemersaantallen, worden kleinere t-ratio’s als significant aangemerkt. Het verschil in gemiddelden tussen twee groepen hoeft niet enorm te zijn om significant te zijn.
Ω2 = ((t2 - 1) / (t2 + N1 + N2 - 1)) x 100%
Analyse van variantie
De analyse van variantie of ANOVA wordt gebruikt om meer dan twee gemiddelde scores te vergelijken. Er zijn verschillende soorten ANOVA’s. Het doel van een one-way ANOVA is het vergelijken van twee of meer gemiddelden op één afhankelijke variabele. De berekening van ANOVA bestaat uit verschillende stappen. Computersoftware is overal beschikbaar en daarom is de berekening van de ANOVA niet in dit boek uitgelegd. De resultaten van een ANOVA worden meestal weergegeven in tabellen, zoals onderstaande tabel. Elke score van een deelnemer is gekwadrateerd en de som van de gekwadrateerde waarden wordt gebruikt om de som van de kwadraten (SS) te bepalen om de tussen-groep variantie, binnen-groep variantie en totale variantie te behandelen. Elke SS wordt gedeeld door het eigen vrijheidsgraden om het gemiddelde kwadraat (MS) te berekenen. Een MS is dus een meting van de variantie. Het aantal vrijheidsgraden is df = k - 1, waarin k het aantal groepen is. De error van de vrijheidsgraden is df = N - k, waarin N het totaal aantal deelnemers in de studie is. Een hoog F-ratio geeft aan dat een flink gedeelte van de variantie komt door het echte verschil in gemiddelde scores. Als de F-ratio kleiner is dan één dan is minder dan de helft van de variantie bepaalt door de behandeling. Als de F-ratio één is hebben de behandeling en de error een gelijk effect in het veroorzaken van de scores. Een F-ratio van vijf betekent bijvoorbeeld dat de variantie door de behandeling vijf keer groter is dan de variantie door de error. F-ratio’s kleiner dan één zijn nooit significant omdat daaruit blijkt dat het effect voornamelijk door de error tot stand is gekomen. De F-ratio is de MS(tussen-groep) gedeeld door de MS(binnen-groep). De F-ratio is significant als de berekende waarde groter is dan de waarde in de tabel. Een significant F-ratio betekent dat de nulhypothese verworpen wordt en de alternatieve hypothese wordt aangenomen.
Samenvatting van de one-way ANOVA |
|
|
|
|
Soort variantie | SS | df | MS | F-ratio |
Behandeling (tussen-groep variantie) | 100 | 2 | 50 | 12.5 |
Fout (binnen-groep variantie) | 80 | 20 | 4 |
|
Totaal | 180 | 22 |
|
|
Post Hoc test
Een significante F wijst er alleen op dat minstens één paar van gemiddelden echt verschillend van elkaar is, maar het toont niet aan of er andere verschillen bestaan. Alle drie gemiddelden kunnen verschillend zijn of slechts één paar van gemiddelden. Daarom is er een andere statistische test nodig om te identificeren welke gemiddelden verschillen van elkaar. De test die hiervoor gebruikt wordt is de post hoc test. Het is een multipele vergelijkingstest waarin het gemiddelde van elke groep met het gemiddelde van elke andere groep wordt vergeleken. Er zijn verschillende post hoc testen beschikbaar. Deze testen verschillen in waarschijnlijkheid in het opleveren van een significant verschil. Liberale of vrijzinnige testen laten vaker significantie zien dan conservatieve of strikte testen. De keuze van een test is afhankelijk van de onderzoeker, maar moet wel verdedigd kunnen worden. De meeste onderzoekers kiezen echter een test die het meest waarschijnlijk hun hypothese ondersteund.
Er zijn verschillende beperkingen aan het gebruiken van de t-test als post hoc test. De t-test is namelijk alleen te gebruiken om twee gemiddelden op een enkele afhankelijke variabele te vergelijken. Als bijvoorbeeld een groepstraining met één set wordt vergeleken met een groep die twee of drie sets gebruiken, is de kans op een fout significant effect of het maken van een type-1 fout vergroot. Als een waarde significant is op .05 niveau bestaat er een kans van 5% dat de waarde eigenlijk niet significant is. Wanneer twee t-testen gebruikt worden met dezelfde afhankelijke variabele vergroot de kans op het vinden van onjuiste significantie naar 10%. Dit leidt tot een probleem, omdat hoewel er meer significante bevindingen ontstaan, de zekerheid op een juiste bevinding kleiner wordt. De multipele vergelijkingstest voorkomt dit probleem omdat de statistiek het aantal vergelijkingen meeneemt in de berekening.
De resultaten van een multipele vergelijkingstest worden uitgedrukt op verscheidene manieren. Wanneer er slechts drie gemiddelde scores worden vergeleken kunnen de resultaten verklaar worden in één of twee zinnen. ‘Drie sets blijken significant groter te zijn dan slechts één of twee sets, maar er is geen verschil gezien tussen set één en set twee. Hoe meer gemiddelden vergeleken worden, hoe moeilijker de resultaten te begrijpen zijn. Om de resultaten van een groot aantal vergelijkingen overzichtelijk te maken, worden deze vaak weergegeven in een tabel. Groepsgemiddelden worden gerangschikt op grootte van het aandeel. Lijnen onder gemiddelden verschijnen wanneer deze niet significant verschillend met elkaar zijn. De waarden die niet onderstreept worden door dezelfde lijn zijn dus significant verschillend. In onderstaand voorbeeld betekent dit dat de groep 1 en 2 niet significant van elkaar verschillen. De groepen 3, 4 en 5 verschillen ook niet significant van elkaar. En de scores van groep 3, 4 en 5 zijn significant hoger dan de scores van 1 en 2.
De resultaten van een aantal vergelijkingen kunnen ook weergegeven worden in een matrix. Een matrix is een tabel die hetzelfde gelezen wordt als de eerder besproken correlatiematrix. De gemiddelde verschillen tussen groepen worden genoteerd in de tabel en een sterretje (*) toont een significant verschil aan. Het significantieniveau p wordt in een voetnoot bij de tabel weergegeven.
De onderstreep methode | ||||
1 Sets | 2 Sets | 3 Sets | 4 Sets | 5 Sets |
10.2 11.8 | 15.1 15.9 16.4 |
De matrix methode | ||||
Groep | 2 | 3 | 4 | 5 |
1 | 1.6 | 4.9* | 5.7* | 6.2* |
2 |
| 3.3* | 4.1* | 4.6* |
3 |
|
| 0.8 | 1.3 |
4 |
|
|
| 0.5 |
* p ≤ .05 |
Als een t-test significant is betekent dit dat er een aanzienlijk vertrouwen is dat een gevonden verschil echt is en niet het effect van toeval, sampling eror of een meetfout. Deze bevinding biedt echter geen kwantitatieve analyse met betrekking tot de hoeveelheid variantie door de experimentele variabele. Ook hier wordt de omegakwadraat gebruikt om het percentage variantie te bepalen die ontstaat door de behandeling en niet door een error. De formule verschilt van de formule die gebruikt wordt in de t-test. F is de berekende F-ratio, k is het aantal groepen en N is het totale aantal van deelnemers in alle groepen. Een waarde van bijvoorbeeld 50 betekent dat 50% van de variantie in gemiddelde scores wordt veroorzaakt door de behandeling of experimentele variabele. De overige 50% van de variantie wordt verklaard door andere factoren.
Ω2 = (F(k-1) - (k-1)) / (F(K-1) + (N-k) + 1) x 100%
Gerandomiseerde blokken ANOVA
ANOVA met gerandomiseerde blokken wordt gebruikt om groepen te vergelijken op basis van de pre-test data. De procedure vermindert de gemiddelde error kwadraat, waardoor de F-ratio en de waarschijnlijkheid van significantie wordt vergroot. Deelnemers worden gerangschikt op basis van prestatie op de afhankelijke variabele. Wanneer er meer dan één afhankelijke variabele bestaat, wordt de belangrijkste variabele geselecteerd. Van deze variabele wordt theoretisch gezien het meeste effect op de resultaten verwacht. Blocking is het proces van het random indelen van deelnemers gebaseerd op hun rang op één of meer belangrijke afhankelijke variabelen om de groepen zo gelijk mogelijk te maken. Het verdelen gaat door totdat alle deelnemers in een groep zijn geplaatst. Een overzichtstabel voor deze ANOVA is identiek aan degene bij de one-way ANOVA behalve dat er een bron van variantie is toegevoegd.
Factorial of two-way ANOVA
Een two-way ANOVA wordt gebruikt om het effect van twee onafhankelijke variabelen op een afhankelijke variabele te bepalen. Er worden meer dan twee groepen vergeleken, zoals het geval is bij alle ANOVA’s. Deze ANOVA biedt een realistische analyse omdat er vrijwel nooit één onafhankelijke variabele compleet verantwoordelijk is voor de verandering in de afhankelijke variabele. De meeste menselijke gedragingen zijn multifactoriëel. Door het bestuderen van het effect van twee onafhankelijke variabelen op een bepaald gedrag kan de onderzoeker de verandering uitgebreider schatten. Bij two-way ANOVA’s wordt het geïntegreerde effect van afhankelijke variabelen beter bestudeerd. Dit wordt de interactie genoemd. Bij deze ANOVA moet men zich afvragen of elke onafhankelijke variabele een significant effect heeft en of de onafhankelijke variabelen interacteren met elkaar. Door deze test kunnen meer bevindingen en conclusies duidelijk gemaakt worden. Het effect van elke onafhankelijke variabele waarbij de invloed van de andere onafhankelijke variabele wordt verwijderd, wordt het hoofdeffect genoemd. Het beoordeelt het effect van één onafhankelijke variabele terwijl het effect van de andere variabele constant gehouden wordt. Een two-way ANOVA wordt gebruikt om het aparte effect van twee onafhankelijke variabelen op een bepaald gedag te meten, net als de interactie van deze variabelen.
Een 2 x 2 ANOVA of design wordt gebruikt bij twee niveaus voor elke onafhankelijke variabele. Bij een 2 x 3 ANOVA zijn er drie niveaus voor elke onafhankelijke variabele. In een two-way ANOVA worden er drie hypothesen getoetst, één onderzoekt bijvoorbeeld de duur van het hoofdeffect, twee onderzoekt de intensiteit van het hoofdeffect en de derde test de interactie tussen de hoofdeffecten. De hoofdeffecten worden getest door het vergelijken van de twee gemiddelden van de rijen met de twee gemiddelde van de kolommen. In onderstaand voorbeeld betekenen van 8.5 en 13 seconde de gemiddelde verbetering in prestatie voor de twee niveaus van trainingsduur. Het gemiddelde van 8.5 seconde is de gemiddelde verbetering voor de groep van 20 minuten. Dit gemiddelde wordt vergeleken met het gemiddelde voor de twee groepen van 30 minuten, dus 13 seconden.
Wanneer er een significante interactie gevonden wordt kunnen de resultaten in een figuur geplot worden. Als een interactie significant is zijn de lijnen niet parallel aan elkaar. Wanneer er aanzienlijk wordt afgeweken van de parallel betekent dat er een groter effect op de afhankelijke variabele ontstaat wanneer er een bepaalde combinatie van variabelen wordt gebruikt. Als de lijnen bijna parallel lopen treedt er geen speciaal effect op bij elk van de combinaties van het onderzoek. Interpretatie van het resultaat moet niet beperkt worden tot de hoofdeffecten, omdat er dan mogelijk een onjuiste conclusie opgesteld kan worden. In sommige onderzoeken is het hoofdeffect niet significant maar de interactie wel. In dit geval moet men niet concluderen dat de onafhankelijke variabelen de afhankelijke variabele niet beïnvloeden. Los van elkaar werken de onafhankelijke variabelen niet, maar samen blijkbaar wel. Het is dus belangrijk om de effecten van de interactie te analyseren.
Herhaalde metingen ANOVA
Dit design betekent dat dezelfde deelnemers een aantal keren getest worden voor een onafhankelijke variabele. Het gebruik van dezelfde deelnemers verkleint het probleem van het verkrijgen van een adequaat aantal deelnemers voor een onderzoek. Deze procedure vermindert ook de component van error variantie dankzij verschillen tussen individuele deelnemers. Hierdoor wordt de waarschijnlijkheid van significante verschillen vergroot. Deelnemers in onderzoeken met herhaalde metingen moeten blootgesteld worden aan elke onafhankelijke variabele op een random basis om een order effect te voorkomen. Een order effect is een verandering in gedrag resulterend uit de volgorde of reeks van activiteiten in een onderzoek. Als de activiteiten random verdeeld worden voor elke deelnemer, worden deze effecten uitgesloten.
Analyse van covariantie
De analyse van covariantie (ANCOVA) is een speciale versie van de ANOVA die de gemiddelden van de groepen aanpast wanneer ze verschillend zijn aan het begin van een studie. Dit gebeurt regelmatig in onderzoeken. Aanpassingen voor verschillen maken vergelijkingen meer valide doordat de verandering in onderzoek vaak gerelateerd is aan de initiële score. Soms is random toewijzing moeilijk en daardoor kunnen de initiële groepsscores verschillend zijn. Soms is het zo dat verschillen in initiële score ontstaan doordat deelnemers gedurende het onderzoek zijn uitgevallen. De scores waren in het begin van het onderzoek gelijk, maar niet meer aan het eind van het onderzoek. De ANCOVA kan dan gebruikt worden om de groepen gelijk te maken door het aanpassen van de pre-test score. Tenslotte wordt deze test ook gebruikt om het effect van een externe variabele op een afhankelijke variabele te verwijderen.
Hoofdstuk 12 - Geselecteerde nonparametrische statistiek
De statistiek die tot nu toe beschreven is wordt gebruikt voor data in absoluut, interval en rationiveau. Voor de meeste parametrische statistiek moeten nonparametrische alternatieven gebruikt worden wanneer de data slechts nominaal of ordinaal zijn. Soms worden deze testen ook gebruikt voor kleine datasets die niet normaal verdeeld zijn. Nonparametrische toetsen zijn niet zo sterk als parametrische toetsen. Power is het vermogen om een nulhypothese terecht te verwerpen.
Chikwadraat
De chikwadraat (χ2) is één van de meest gebruikte nonparametrische testen en wordt gebruikt voor frequentietellingen. Frequentietellingen kunnen bijvoorbeeld het aantal jongens en meisjes op een schoolplein zijn. Met de chikwadraat analyse worden observaties gemaakt en geteld in slechts één categorie. Van de observaties wordt gezegd dat ze onafhankelijk van een ander zijn. De onderliggende premisse van de analyse is een vergelijking tussen wat verwacht wordt te gebeuren (theoretische waarschijnlijkheid) en wat daadwerkelijk geobserveerd wordt (empirische waarschijnlijkheid). Empirische waarschijnlijkheid wordt afgeleid van de observaties van zekere gebeurtenissen. Projecties van gebeurtenissen in de toekomst zijn gebaseerd op de frequentie van voorkomen. De chikwadraat analyse is een test om te bepalen of er een significante afwijking is van wat theoretisch werd verwacht.
De one-way chikwadraat wordt gebruikt om te bepalen of er een significant verschil tussen de verwachte en geobserveerde frequentie is in twee of meer categorieën. In onderstaande formule is O de geobserveerde frequentie en E de verwachte frequentie van een gegeven categorie. χ2 = Σ [ (O-E)2 / E ]
In elke chikwadraat analyse moet het totaal van geobserveerde en verwachte frequenties gelijk zijn. Ten eerste wordt de hypothese opgesteld, H0: O = E en H1: O ≠ E. De kritieke chikwadraat waarde kan afgelezen worden uit een tabel onder het juiste alpha-niveau en de juiste vrijheidsgraden. De vrijheidsgraden van een one-way chikwadraat is r - 1, waarin r het aantal categorieën is. De chikwadraat verdeling is eenzijdig omdat het alleen positieve waarden bevat, net zoals de F verdeling. Als de berekende chikwadraat groter is dan de kritieke chikwadraat is er een significant verschil tussen het geobserveerde en het verwachtte. De nulhypothese wordt dus verworpen. Verdere interpretatie van de analyse wordt mogelijk gemaakt door onderzoek van het overzicht. Hierdoor kan bepaald worden welke categorie of categorieën de grootste of kleinste bijdrage leveren aan het totale chikwadraat.
Een andere toepassing van de one-way chikwadraat is het bepalen van de juistheid van het passend zijn (goodness of fit) van een dataset. Deze juistheid is een vergelijking tussen een geobserveerde dataset met de verwachte waarden afkomstig uit een reeds bestaande groep observaties.
Two-way chikwadraat
De two-way chikwadraat wordt gebruikt om te bepalen of er een significant verschil bestaat tussen de frequentie van de geobserveerde en de verwachtte observaties in twee of meer categorieën. Dit is gelijk aan de two-way factorial ANOVA. De simpelste versie van deze test gebruikt een 2 x 2 tabel. De eerste stap in de analyse is het plaatsen van de geobserveerde frequenties van elk type gebeurtenis in de contingency tabel en het bepalen van de verwachtte waarden. De verwachtte en de geobserveerde frequenties moeten gelijk aan elkaar zijn en daarom is de som van de kolommen en de rijen altijd gelijk aan het totaal aantal frequenties.
Tabel voor two-way chikwadraat analyse | ||||||
|
| Natuurlijk O | Natuurlijk E | Kunstmatig O | Kunstmatig E | Totaal |
Prestatie | Gewonnen | 39 | 33.75 | 21 | 26.25 | 60 |
Verloren | 6 | 11.25 | 14 | 8.75 | 20 | |
Totaal |
| 45 |
| 35 |
| Totaal = 80 |
Two-way chikwadraat analyse | |||
Categorie | O | E | (O-E)2/E |
Natuurlijk/winst | 39 | 33.75 | 0.82 |
Natuurlijk/verlies | 6 | 11.25 | 2.45 |
Kunstmatig/winst | 21 | 26.25 | 1.05 |
Kunstmatig/verlies | 14 | 8.75 | 3.15 |
Totaal | 80 | 80 | chikwadraat = 7.47* |
Voor een chikwadaat hypothese test worden het aantal vrijheidsgraden berekend als
(r - 1)(c - 1), waarin r het aantal rijen en c het aantal kolommen is. Wanneer de berekende waarde groter is dan de kritieke waarde is er een significant verschil. Verdere interpretatie van een two-way chikwadraat kan gedaan worden door de Cramers phi-coëfficiënt te berekenen. φ = √ (χ2 / N(k-1)) waarin N het totale frequenties is en k het grootste aantal van categorieën. De phi moet geïnterpreteerd worden zoals een correlatiecoëfficiënt. De grootte van de waarde is een indicator van de sterkte van de waarde van de relatie of het verschil. Naast de standaard 2 x 2 two-way chikwadraat kunnen er ook testen uitgevoerd worden voor meer dan twee niveaus of meer dan twee categorieën.
Beperkingen en aannames aan de chikwadraat analyse:
1. Data moeten frequentietellingen zijn.
2. Observaties moeten onafhankelijk van elkaar zijn.
3. Verwachtte en geobserveerde frequenties moeten gelijk aan elkaar zijn.
4. De grootte van de groep moet adequaat zijn.
Spearman r
De Spearman r is de nonparametrische versie van de Pearson r. Deze wordt gebruikt wanneer de data in ordinaal niveau gemeten zijn of voor problemen met kleine datasets. In de formule staat de ΣD2 voor de som van de gekwadrateerde verschillen in rang en N voor het aantal gepaarde observaties. Een voorbeeld over het berekenen van de Spearman r staat uitgelegd op pagina 179.
Spearman r = 1 - [ 6(ΣD2) / N(N2 - 1) ]
De Spearman r wordt precies hetzelfde geïnterpreteerd als de Pearson r. De r wordt gekwadrateerd en vermenigvuldigt met honderd om de grootte of sterkte van de relatie uit te drukken. Een beperking aan de Spearman r is dat hij niet vervangen kan worden door Pearson r om de standaardfout te berekenen of te schatten.
Andere nonparametrische testen
De onderstaande testen gaan over het verschil in medianen en niet over het verschil in gemiddelden. De Mann-Whitney U is de nonparametrische versie van de onafhankelijke t-test. Data moet hierbij minstens op ordinaal niveau gemeten zijn. De statistiek bepaalt of twee onafhankelijke groepen vanuit dezelfde populatie zijn gesampled. De basis is het vergelijken van het aantal scores van elke verdeling met de andere verdeling. Als er meer scores hoger zijn dan verwacht in één groep, wordt er geconcludeerd dat deze groepen niet uit dezelfde populatie komen en dus significant van elkaar verschillen.
De Wilcoxon Matched Pairs test is het nonparametrische alternatief voor de gecorreleerde t-test. Hierbij moet de data ook minimaal van ordinaal niveau zijn. In deze analyse wordt de grootte en de richting van het verschil tussen twee gepaarde observaties bepaald. De grootte van het verschil wordt daarna gerangschikt. De som van de rangen van de positieve en de negatieve verschillen wordt met elkaar vergeleken. Als de ongelijkheid tussen deze sommen te groot is, wordt er een significant verschil gevonden tussen de gepaarde observaties.
De Kruskal-Wallis ANOVA is de nonparametrische equivalent van de one-way ANOVA. Hierbij worden er vergelijkingen van meer dan twee onafhankelijke groepen gemaakt. Alle observaties in de analyse worden gerangschikt en de som van de rang wordt voor elke groep bepaald. Als er geen significant verschil is tussen de groepen, is de som van de rangen gelijk aan elkaar. Als het verschil in de som te groot is, wordt geconcludeerd dat de deelnemers uit verschillende populaties komen en dat er een significant verschil bestaat.
Friedman’s ANOVA is in theorie gelijk aan de Kruskal-Wallis test. De test wordt gebruikt wanneer er meer dan twee herhaalde metingen gedaan zijn op dezelfde deelnemers. Friedman is dus de nonparametrische versie van de one-way ANOVA voor herhaalde metingen.
Parametrische en Nonparametrische testen | ||
Doel | Parametrisch | Nonparametrisch |
Vergelijken van verwachtte en geobserveerde tellingen | - | Chikwadraat |
Vergelijken van twee onafhankelijke groepen | Onafhankelijke t-test | Mann-Whitney U |
Vergelijken van twee gerelateerde groepen | Gecorreleerde t-test | Wilcoxon matched pairs |
Vergelijken van meer dan twee onafhankelijke groepen | One-way ANOVA | Kruskal-Wallis ANOVA |
Vergelijken van meer dan twee gerelateerde groepen | One-way ANOVA voor herhaalde metingen | Friedman’s ANOVA |
Relatie tussen twee variabelen | Pearson r | Spearman r |
Deel 4. Metingen en onderzoeksdesign
Hoofdstuk 13 - Metingen en datacollectie
Een onderzoeker moet goed nadenken over het design van zijn onderzoek zodat er betekenisvolle en accurate resultaten gevonden kunnen worden. Twee belangrijke overwegingen zijn de accuraatheid en de consistentie van een meting. Daarvoor is het niet alleen nodig dat de onderzoeker verstand heeft van het gebruiken van de meetinstrumenten, maar ook over de kwaliteit van data die er gegenereerd wordt.
Logische validiteit
Validiteit is de omvang waarin een test meet wat het beoogt te meten. Validiteit is een kenmerk van de test of van het meetinstrument. Wanneer de validiteit van een meetinstrument bepaald is, hoeft dit niet opnieuw gedemonstreerd te worden. Bij een nieuwe test of procedure moeten onderzoekers metingen over de validiteit rapporteren. Face validiteit is het zwakste type van validiteit. Over de accuraatheid van het instrument kan namelijk alleen gezegd worden of de test meet wat het beoogt te meten. Er kan geen verklaring worden gegeven over de mate van precisie van de data. Inhoudsvaliditeit is meestal van toepassing op testen en instrumenten wanneer het vergelijken van de data met een standaard niet mogelijk is. Een manier van aanpak is het construeren van een specificatietabel bij het ontwikkelen van een nieuw instrument. De onderzoeker kan het aantal, het type en de proportie van items van een instrument kwantificeren. Er is geen statistische waarde gerelateerd aan de inhoudsvaliditeit. Het is echter iets sterker dan face validiteit omdat het ook geautoriseerde expertise gebruikt.
Statistische validiteit
Statistische metingen van validiteit zijn sterker dan logische validiteit. Er zijn namelijk gegevens bekend over de accuraatheid van het instrument, bijvoorbeeld de correlatiecoëfficiënt. Daarnaast worden sommige vergelijkingen gemaakt aan de hand van een gouden standaard, waarvan men weet dat het goede metingen oplevert. Criterium gebaseerde validiteit wordt verkregen wanneer de resultaten van een test vergeleken worden met de resultaten uit een geaccepteerde standaard. De meest nauwkeurige en definitieve metingen van een variabele worden gerefereerd als gouden standaard. Deze validiteit kan verdeeld worden in concurrent validiteit en voorspellende validiteit.
Een meting van concurrent validiteit wordt gemaakt wanneer er twee metingen van dezelfde variabele binnen een korte tijdsduur worden gedaan. Eén van de testen die wordt toegepast is het criterium, de andere test is om de validiteit te meten. De nauwkeurigheid van de test wordt bepaald aan de hand van de mate van statistische relatie tussen twee metingen. Het doel van de voorspellende validiteit is het laten zien van de nauwkeurigheid van een schatting voor toekomstige gebeurtenissen. Hierbij moet de huidige test gevalideerd worden en wordt de voorspelde gebeurtenis geacht om de meting van het criterium te zijn. Een kritieke factor in deze validiteit is een acceptabele criterium meting.
Construct validiteit wordt gebruikt wanneer de variabele geen definitief criterium heeft, moeilijk is om te meten of niet direct geobserveerd kan worden. De variabele waar men in geïnteresseerd is wordt in dit geval als een construct gezien. Een aanpak is het maken van twee aparte groepen, één waarvan een hoge mate van construct wordt verwacht en één waarvan een lage mate wordt verwacht. De test wordt uitgevoerd bij beide groepen en de resultaten worden geanalyseerd, meestal met een onafhankelijke t-test. Als er een verschil in resultaten wordt gevonden ten gunste van de groep met de verwachtte hoge mate van construct, dan spreekt men van constructvaliditeit.
De sensitiviteit van een meting is de mate waarin kleine verschillen gedetecteerd kunnen worden. Hoe hoger de sensitiviteit van een instrument, hoe groter de precisie van de meting en daarmee de validiteit.
Betrouwbaarheid
Betrouwbaarheidsmetingen bepalen de consistentie of herhaalbaarheid van de testscores of data. Als een bepaalde eigenschap elke zes uur gemeten wordt, verwacht men een dergelijke score op elk meetmoment, maar deze hoeft niet exact gelijk te zijn. Hoge betrouwbaarheidsniveaus zijn noodzakelijk in onderzoek, want het informeert ons over de zekerheid van testresultaten. De meting van betrouwbaarheid gaat over de scores of datasets en niet over het instrument zelf. Er zijn verschillende types van betrouwbaarheidsmetingen. Ze meten allemaal de herhaalbaarheid van scores, maar allemaal onder verschillende omstandigheden.
Een meting van stabiliteit betrouwbaarheid wordt gedaan wanneer dezelfde test is uitgevoerd op twee aparte gelegenheden en de resultaten gecorreleerd zijn aan elkaar. Het doel is om te bepalen hoe precies een testprestatie herhaald kan worden op een tweede of derde gelegenheid. De grootte van de correlatie tussen de trials wordt geëvalueerd en bepaald als er een acceptabel niveau van consistentie is gevonden. Deze aanpak wordt de test-hertest methode genoemd. De tijd tussen deze beide testen mag niet zo groot zijn dat factoren zoals groei, leereffecten of ontwikkeling de testresultaten beïnvloeden.
Een meting van gelijkwaardigheid betrouwbaarheid wordt gemaakt wanneer scores van twee testen die dezelfde variabele meten gecorreleerd zijn. Het doel is om te kijken of testprestaties herhaald kunnen worden met een dergelijke maar onderscheidende test of instrument. Deze aanpak wordt de parallel of afwisselende vorm methode genoemd. Omdat hierbij verschillende testen worden gebruikt die hetzelfde meten is het terugroepen van items geen echte zorg. Zoals je kunt bedenken is het moeilijk om twee juiste testen te ontwikkelen met verschillende items die wel hetzelfde meten.
Metingen van interne consistentie kunnen gedaan worden uit de administratie van een enkele test. Deze meting van betrouwbaarheid wordt gebruikt om de consistentie van de scores binnen een test te bepalen. De split-half methode wordt hierbij regelmatig toegepast. De test wordt verdeeld en de scores van de ene helft van de test worden gecorreleerd met de andere helft van de test. Als de correlatie tussen de helften bevredigend is, zijn de testscores intern consistent. Hoe meer items een test heeft, hoe hoger de betrouwbaarheid wordt. De Spearman-Brown r wordt gebruikt om de half-test correlatie te berekenen voor de originele testlengte. In de formule staat de r voor de half-test betrouwbaarheidcoëfficiënt.
Spearman-Brown r = 2xr / 1+r
Interbeoordelaars betrouwbaarheid is een speciaal type betrouwbaarheid waarbij de consistentie van de scores verkregen door meer dan één onderzoeker wordt bepaald. Soms is dit gerefereerd aan een meting van objectiviteit. De statistische correlatie tussen de scores van verschillende onderzoekers wordt gebruikt om het consistentieniveau te bepalen. Dit type betrouwbaarheid is belangrijk in onderzoeken met grote deelnemersaantallen waarin verscheidene onderzoekers meewerken aan de datacollectie.
Meetfouten
Wanneer er een meting op een deelnemer wordt gedaan, wordt het resultaat de geobserveerde score genoemd. De geobserveerde score is een combinatie van wat iemand wil beoordelen (juiste score) en elke fout die er gemaakt wordt in het proces (meetfout). De geobserveerde score is de juiste score plus/min de meetfout. De juiste score wordt nooit bekend en is een theoretisch construct omdat meetfouten eigenlijk altijd in meer of mindere mate bestaan. De meetfouten moeten zo klein mogelijk gehouden worden zodat het betrouwbaarheidsniveau vergroot kan worden. Dit maakt de onderzoeker ook zekerder over zijn geobserveerde variabelen.
Alles dat een juiste score kan beïnvloeden wordt als een meetfout geregistreerd. Sommige bronnen van deze meetfout kunnen afgeleid worden uit het gebruikte instrument. Sommige fouten komen door de testprocedures en sommige fouten ontstaan door de prestatie van de deelnemer. Het instrument moet bedrijfsklaar zijn, goed gekalibreerd en juist gebruikt worden. De testprocedures moeten duidelijk zijn en bij elke deelnemer hetzelfde worden uitgelegd. De deelnemer moet goed geïnstrueerd zijn en bekend zijn met de testprocedures. Daarnaast spelen motivatie, gezondheid, luidheid en eerdere onderzoeken mee aan de prestatie van de deelnemers en daardoor kunnen meetfouten ontstaan. Het is moeilijk om het psychologische deel en de gedragsaspecten van een deelnemer te controleren, maar de onderzoeker kan een groot deel van de meetfouten terugdringen.
Meetfouten kunnen in een bepaalde mate gekwantificeerd worden. Dit kan met behulp van de standaard meetfout (SEM). Deze kan berekend worden als een index van de nauwkeurigheid van een verkregen testscore. SEM = SDTEST √ (1 - rTEST) waarin de SD de standaarddeviatie van de testscores is en de r de betrouwbaarheid van de testscores. Vervolgens kunnen de betrouwbaarheidsintervallen van de juiste testscore worden berekend. 99% van de verkregen scores valt binnen ± 2.58 SEM, 95% van de scores binnen ± 1.96 SEM en 68% van de scores binnen ± 1.0 SEM. Een hogere betrouwbaarheidscoëfficiënt resulteert in een kleinere SEM.
Hoofdstuk 14 - Experimentele validiteit en controle
De onafhankelijke variabele is de variabele die de onderzoeker manipuleert, de afhankelijke variabele is het gedrag dat beïnvloedt wordt. Interne validiteit is de omvang waarin een onderzoeksomgeving gecontroleerd is zodat de onafhankelijke variabele het effect op de afhankelijke variabele veroorzaakt. De bedreigingen van de interne en externe validiteit staan weergegeven in onderstaande tabel.
Interne validiteit | Externe validiteit |
Ontwikkeling | Reactief effecten van pre-test |
Geschiedenis | Deelnemer-behandeling interactie |
Testen | Kunstmatige of experimentele omgeving |
Nauwkeurigheid van instrument | Multipele behandeling storing |
Statistische regressie |
|
Experimentele sterfte |
|
Selectie vooroordeel |
|
Selectie ontwikkeling |
|
Placebo effect |
|
Hawthorne effect |
|
Halo effect |
|
Interne validiteit
Ontwikkeling - de deelnemers veranderen gedurende de tijd. Het beste middel om deze effecten te controleren is het maken van een controlegroep. Door het vergelijken van de mate van verandering tussen beide groepen, bepaalt men het effect van ontwikkeling.
Geschiedenis - relateert aan alle dingen buiten de studie die kunnen gebeuren met de deelnemer en daardoor de afhankelijke variabele kunnen beïnvloeden. Deze factoren worden herkend als mogelijkheden die niet gecontroleerd kunnen worden. Om het effect enigszins te verkleinen moet men grote deelnemersaantallen meten en deelnemers random in groepen indelen.
Testen - het testproces biedt ervaring aan een deelnemer en de volgende keer zou deze ervaring bij een test ervoor kunnen zorgen dat de prestatie van de deelnemer beïnvloedt is. Dit wordt het leereffect genoemd.
Nauwkeurigheid van het instrument - het is noodzakelijk dat instrumenten valide, betrouwbaar en bedrijfsklaar zijn. Instrumenten die niet juist gekalibreerd zijn beperken de nauwkeurigheid van een meting en beïnvloeden zo de interne validiteit.
Statistische regressie - vindt plaats wanneer een extreme prestatie op een test gevolgd wordt door een minder extreme prestatie. De term regressie refereert naar de neiging van de tweede score om achteruit te gaan richting het gemiddelde. Het effect kan geminimaliseerd worden door een adequaat deelnemersaantal.
Selectie vooroordeel (selection bias) - wanneer groepen niet random verdeeld zijn moet men rekening houden met de mogelijke effecten van selection bias. Dit komt het vaakst voor wanneer onderzoekers een vrije keuze hebben voor de deelnemers van een groep. Het is vooral verstorend wanneer de behandelingsgroep en de controlegroep niet random worden gekozen. De ANCOVA kan gebruikt worden om te controleren voor initiële verschillen in groepen op basis van een belangrijke afhankelijke variabele.
Experimentele sterfte - betekent niet meteen dat deelnemers zijn overleden tijdens het onderzoek, maar bevat elke deelnemer die gestopt is met het onderzoek. Dit gebeurt om verschillende redenen zoals geen interesse, ziek zijn en zich ongemakkelijk voelen. Groepen die in het begin van het onderzoek gelijk waren, kunnen na het onderzoek hierdoor verschillen. De onderzoeker weet dus achteraf niet waar eventueel gevonden relaties of verschillen door zijn ontstaan.
Selectie ontwikkeling - komt voor wanneer de karakteristieken die bestudeerd worden uit zichzelf verbeteren gedurende de tijd. Het is moeilijk te concluderen of de onafhankelijke variabele het verschil heeft veroorzaakt of dat het komt door het verbeteren van de prestatie.
Placebo effect - is het verwachtingseffect waarbij een deelnemer of onderzoeker een bepaald effect verwacht. Door vertrouwen, hoop en verwachting wordt een bepaald effect gevonden, terwijl dit niet mogelijk zou kunnen zijn. Het placebo-effect wordt afgeleid uit een verwachting. Bij een blind onderzoek weten deelnemers niet of ze een placebo of het echte middel toegediend krijgen. Bij een dubbel-blind onderzoek weten zowel deelnemers als de onderzoekers niet wie de placebo toegediend heeft gekregen. Hierdoor kan de onderzoeker geen vooroordeel of verwachting hebben over de resultaten van de deelnemers.
Hawthorne effect - dit effect wordt geproduceerd door observaties. Het effect refereert aan het effect van een onderzoek op een deelnemer die uitsluiten te wijten is aan het feit dat deze deelnemer meedoet aan het onderzoek. Het simpelweg meedoen aan een onderzoek heeft een positief effect op de resultaten. Dit effect kan verkleind worden als deelnemers niet weten dat ze geobserveerd worden. Hierdoor kunnen ze zich niet anders gaan gedragen en gaan ze niet beter presteren dan normaal gesproken.
Halo-effect - wordt geïntroduceerd wanneer een onderzoek een verwachting heeft over de prestatie van een deelnemer. Deze verwachting heeft invloed op het oordeel van de onderzoeker. Hoe subjectiever de experimentele variabele is, hoe groter het Halo-effect wordt. Dit effect kan verkleind worden door de experimentele metingen van het onderzoek te laten doen door buitenstaanders. Soms is dit niet mogelijk en kan een dubbel-blind onderzoek worden uitgevoerd. Hierdoor verdwijnen de verwachtingen van de onderzoekers over de deelnemers.
Externe validiteit
Externe validiteit is de generaliseerbaarheid van de resultaten naar andere condities of settings. Het is de mogelijkheid om de resultaten van een onderzoek in andere omstandigheden te kunnen gebruiken. Hoe groter de mogelijkheid om te generaliseren, hoe groter de externe validiteit.
Reactieve effecten van pre-testen - een mogelijke consequentie van het pre-testen van deelnemers is dat hun verwachting van het onderzoek verandert. Het kan zijn dat deelnemers gemotiveerder worden door de pre-test. Ze zullen op de test betere resultaten laten zien dan ze hadden gedaan zonder pre-test.
Deelnemer-behandeling interactie - soms zorgt een unieke karaktertrek er bij deelnemers voor dat een behandeling effectiever is dan bij andere deelnemers. Dit leidt ertoe dat de effectiviteit van een behandeling en de generaliseerbaarheid van het onderzoek beperkt zijn tot mensen met deze precieze karaktertrek.
Kunstmatige of experimentele conditie - hiertoe behoren de verschillen in gedragingen van de deelnemers in de experimentele conditie en in de echte wereld. De condities in het laboratorium lijken over het algemeen niet op de echte samenleving. Hoe kunstmatiger en beperkter de onderzoekssetting wordt, hoe lager het vermogen wordt om de resultaten te generaliseren naar de samenleving.
Multipele behandeling storing - wanneer een onderzoeker geïnteresseerd is in meer dan één experimentele variabele ontstaat het risico op storing. Dit risico ontstaat ook wanneer er meer dan één niveau van een bepaalde variabele wordt onderzocht. De ene variabele kan namelijk de andere variabele beïnvloeden. Om de mogelijke invloed van een test op een ander tegen te werken, wordt de testserie random toegewezen.
Controleren van bedreigingen van interne validiteit
Ten eerste moeten er equivalente groepen gemaakt worden op basis van randomisatie. De stelling bij randomisatie is het vermoeden dat de initiële verschillen tussen groepen tot stand gekomen zijn door toeval. De selection bias wordt verwijderd door randomisatie, maar ook de selectie ontwikkeling wordt verminderd. Tenslotte wordt ook de statistische regressie geminimaliseerd.
Sommige onderzoeken zijn gebaseerd op een vergelijking tussen de effecten van een behandeling en zonder behandeling. De groep die geen behandeling krijgt wordt de controlegroep genoemd. De controlegroep heeft gelijke karakteristieken als de experimentele groep, het enige verschil is dat de controlegroep de onafhankelijke variabele niet bevat. Het beste is om de deelnemers op basis van randomisatie te verdelen over de controlegroep of experimentele groep. Het gebruiken van blind en dubbel-blind onderzoek controleert voor het placebo en het halo-effect.
Een andere manier om de bedreigingen te verminderen is door het zorgen voor nauwkeurige meetinstrumenten. Het instrument moet bedachtzaam geselecteerd worden, gekalibreerd zijn en op de juiste manier gebruikt worden door de onderzoeker.
Controleren van bedreigingen van externe validiteit
Wanneer een hoge mate van externe validiteit of generaliseerbaarheid wenselijk is, is het belangrijk dat de deelnemers in een onderzoek representatief zijn voor de gehele populatie. De reactieve effecten van pre-testing kunnen verminderd worden door het gebruik van een controlegroep. Het effect van deelnemer-behandeling interactie moet door de onderzoeker geschat worden. Het effect van de kunstmatige conditie is een andere overweging van de onderzoeker omdat er geen manier is om dit te controleren. Sommige onderzoeken moeten in het lab worden uitgevoerd, de onderzoeker moet dan creatief zijn om deze labsetting zo goed mogelijk te refereren met de echte wereld. Tenslotte moet de onderzoeker goed opletten of er interacties ontstaan tussen multipele behandelingen.
De interne en externe validiteit zijn belangrijk, maar het is lastig om een hoge mate van beide binnen hetzelfde onderzoek te hebben. Er bestaat een omgekeerde relatie tussen de interne en de externe validiteit. Een stijging van de interne validiteit leidt tot een daling van de externe validiteit. Bij basisonderzoek wordt er gecontroleerd voor de bedreigingen voor interne validiteit. Hierdoor zijn de resultaten niet goed te generaliseren naar de echte wereld en is de externe validiteit laag. Bij toegepast onderzoek is de externe validiteit juist hoog, terwijl de interne validiteit lager is.
Hoofdstuk 15 - Experimenteel onderzoek en designs
Het primaire doel van onderzoek is het vergaren en ontwikkelen van nieuwe kennis. Onderzoek dat is uitgevoerd met experimentele methodes is getypeerd door een voorzichtige en systematische aanpak om de bedreigingen voor validiteit te minimaliseren. Bij een hoge mate van controle hoort ook introductie en manipulatie van de onafhankelijke variabele. Wanneer er wordt vastgesteld dat een factor een voorspelbare invloed uitoefent op een andere factor, spreekt men van een oorzaak-gevolg relatie. Als er sprake is van een juiste relatie wordt aan één belangrijk doel van onderzoek voldaan. Dit doel is het generaliseren van de relatie naar andere condities of situaties buiten het onderzoek. Experimenteel onderzoek is ook de beste manier om de wetenschappelijke methode van het oplossen van problemen uit te drukken. Omdat experimenteel onderzoek veel controle vereist, kan dit het beste in het laboratorium of onder gecontroleerde condities worden uitgevoerd.
Een hoge mate van controle is karakteristiek in experimenteel onderzoek. Om de bedreigingen van validiteit te verminderen kan men gebruik maken van randomisatie, controlegroepen, adequate samplegrootte en logische redenatie van de onderzoeker. Het gebruik van blind en dubbel-blind onderzoek minimaliseert de invloed van variabelen zoals het placebo en halo effect. Andere externe variabelen van een studie moeten gecontroleerd worden door het effect van hun invloed te beperken. Dit kan volbracht worden door het maken van een lijst van karaktertrekken die de afhankelijke variabele kunnen beïnvloeden. Om goed te begrijpen of variabelen effect hebben op de afhankelijke variabele heeft een onderzoeker kennis over de literatuur nodig, moet hij ervaren zijn en open-minded. Soms zorgt het elimineren van externe variabelen voor ethische vragen, bijvoorbeeld over het laten deelnemen van vrouwen met schommelende hormoonspiegels.
Een onderzoeksdesign is het alles omvattende plan van een onderzoek. Het geeft het onderzoek structuur en richting en het bevat de statistische analyses om de hypotheses te testen. Het doel van een onderzoeksdesign is het zorgen dat een onderzoeker de studie kan leiden en de hypothese kan testen met een minimum aantal verstoringen door externe variabelen. Er zijn true-, quasi- en pre-experimentele designs. Alle designs hebben de overeenkomst dat de onafhankelijke variabele wordt gemanipuleerd.
De statistische schatting van de sampling error is de error variantie. Een passende studie moet het effect van de onafhankelijke variabele op de afhankelijke variabele optimaliseren terwijl de bedreigingen van validiteit verkleind worden. Het effect van de onafhankelijke variabele op de afhankelijke variabele resulteert in verschillen die de experimentele of behandelingsvariantie wordt genoemd. Het doel van elk onderzoek is het verkleinen van de error variantie en het vergroten van het effect van de experimentele variantie. Dit werd in 2001 door Thomas en Nelson het minimax principe genoemd.
Symbolen die gebruikt worden in onderzoeksdesigns:
- random; groepen zijn gevormd door randomisatie
- non random; groepen zijn niet gevormd door randomisatie
- IV; introductie van de onafhankelijke variabele, de behandeling
- Test of hertest; meting van de afhankelijke variabele
True designs
Juiste (true) designs zijn de sterkste benodigdheden voor experimenteel onderzoek. Ze bieden een aanzienlijke mate van controle en minimaliseren van bedreigingen voor validiteit. Deze designs hebben twee sleutelelementen voor experimentele controle, namelijk het indelen in groepen op basis van randomisatie en het gebruik van een controlegroep.
Post-test only design - dit design is gebaseerd op het gerandomiseerd indelen van deelnemers in een experimentele of controlegroep. Vervolgens wordt de onafhankelijke variabele in de experimentele groep geïntroduceerd. Het effect van de behandeling wordt getest en uiteindelijk wordt er bepaald of het verschil tussen de groepen significant is. Als de groepen bij het begin van het onderzoek gelijk waren en aan het eind niet meer, is dit verschil toe te wijzen aan de onafhankelijke variabele. De statistiek die gebruikt wordt is een onafhankelijke t-test voor twee groepen en een one-way ANOVA voor meerdere groepen.
Experimentele: random | IV | Test |
Controle: random | geen IV | Test |
Pre- en post-test design - dit design verschilt van het vorige design omdat er een pre-test is toegevoegd. Deze aanpak wordt gebruikt wanneer de effecten van de test te verwaarlozen zijn of wanneer de pre-test data nodig is om een selectie tussen deelnemers te maken. Dit design maakt het mogelijk om de grootte van het verschil in de afhankelijke variabele te bepalen die werd gemaakt door de onafhankelijke variabele. Het design bekijkt welke groep er meer verandert. ANCOVA kan gebruikt worden wanneer de pre-test als covariabele gezien wordt en een onafhankelijke t-test of one-way ANOVA voor de veranderende scores.
Experimentele: random | Test | IV | Hertest |
Controle: random | Test | geen IV | Hertest |
Quasi-experimentele designs
Quasi-experimentele designs zijn tot op zekere hoogte zoals true experimentele designs. Het grote verschil is dat randomisatie niet gebruikt wordt bij het indelen van de deelnemers in groepen. Hierdoor groeit de onzekerheid over de gelijkheid van de groepen. Sommige designs zijn gebaseerd op het observeren van een groep over een bepaalde tijd. Sommige designs zijn bedoeld voor natuurlijke settings zoals een klaslokaal. Het doel is om de deelnemers in een setting zoals de echte wereld te plaatsen, de onafhankelijke variabele te introduceren en het effect hiervan te meten. Deze designs hebben een hoge externe validiteit, maar een lage interne validiteit.
Pre- en post non random design
Dit design is identiek aan de pre- en post experimenteel design behalve dat de deelnemers niet gerandomiseerd zijn ingedeeld in groepen. Dit wordt gebruikt wanneer de onderzoeker niet de mogelijkheid heeft om de deelnemers te randomiseren of het onderzoek in een setting zoals de echte wereld wil laten plaatsvinden. Als test voor de equivalentie van groepen kan de onafhankelijke t-test of de one-way ANOVA worden toegepast op de pre-test resultaten. Als er geen significant verschil wordt gevonden tussen de twee groepen is de gelijkheid van de groepen gewaarborgd. Maar de test zegt echter niks over de grootte van het effect. Hoewel er geen significant verschil wordt gevonden tussen de groepen op de afhankelijke variabele, kan er wel een verschil zijn op andere factoren die het experiment mogelijk beïnvloeden. Het beste kan men de ANCOVA gebruiken met de pre-test score als covariabele.
Experimentele: non random | Test | IV | Hertest |
Controle: non random | Test | geen IV | Hertest |
Herhaalde meting design
Er is slechts een experimentele groep die wordt blootgesteld op meer dan één niveau van de onafhankelijke variabele. Het effect van elk niveau wordt gemeten op de afhankelijke variabele. Omdat de deelnemers herhaalde metingen hebben, fungeren ze als hun eigen controlegroep. Dit design werkt het beste wanneer er weinig interactie tussen de niveaus van de onafhankelijke variabele is. Daarnaast moet er weinig tijd zitten tussen de meetsessies. Om de interactie of testeffect te minimaliseren moet de volgorde van testen gerandomiseerd worden voor elke deelnemer. De statistische analyse die hierbij gebruikt wordt is de gecorreleerde t-test voor twee niveaus of een one-way ANOVA voor meerdere niveaus. Bij dit design is een kleiner aantal deelnemers nodig, maar dit is alleen de correcte aanpak bij behandelingen of onderzoeken over een korte tijd.
Experimentele: non random | IV, level 1 | Test | IV, level 2 | Test | IV, level 3 | Test |
Tijd series design
Dit design lijkt op het herhaalde metingen design. Een enkele experimentele groep is zijn eigen controlegroep en is vastgesteld op een afhankelijke variabele verscheidene keren over een specifieke periode. Dit vestigt een constante baseline voor de variabele. Dit design is waardevol bij het bestuderen van metingen die erg vaak fluctueren. De onafhankelijke variabele wordt geïntroduceerd nadat er meerdere schattingen over de afhankelijke variabele zijn gemaakt. Zonder controlegroep is het lastig om de weten of het effect van geschiedenis daadwerkelijk verantwoordelijk is voor de verandering.
Experimentele: non random | Test | Test | Test | IV | Test | Test | Test |
Pre-experimentele designs
Deze designs hebben de zwakste mate van experimentele controle en kennen geen randomisatie, soms geen controlegroep en geen zekerheid over de equivalentie van de groepen als een controlegroep wel wordt gebruikt. De enige reden waarom deze designs experimenteel genoemd mogen worden is omdat ze de onafhankelijke variabele manipuleren. De designs zijn zo zwak dat het lastig is een betekenisvolle conclusie te trekken.
Eén groep pre- en post design
Dit design en deze aanpak is waarschijnlijk de beste van de pre-experimentele designs. Eén experimentele groep krijgt een pre-test, wordt vervolgens blootgesteld aan de behandeling en krijgt tenslotte een post-test. De verandering tussen de scores wordt toegeschreven aan de behandeling. Er zijn echter te veel bedreigingen van interne validiteit niet gecontroleerd. Er kan dus eigenlijk niks geconcludeerd worden over de bevindingen.
Experimentele: non random | Test | IV | Hertest |
Statische groep vergelijking design
Het verschil van dit design met het post-test only design is dat bij dit design geen gebruik wordt gemaakt van randomisatie van de deelnemers in de groepen. Een experimentele groep ontvangt de onafhankelijke variabele en wordt vergeleken met een controlegroep op de afhankelijke variabele. Er is geen zekerheid dat deze groepen gelijk waren aan het begin van het onderzoek, het is dus moeilijk te concluderen dat de verschillen tussen de groepen veroorzaakt worden door de onafhankelijke variabele.
Experimentele: non random | IV | Test |
Controle: non random | geen IV | Test |
Eén shot design
Dit design is het minst acceptabel van alle experimentele designs. Een experimentele groep ontvangt de behandeling en de behandeling wordt getest aan de hand van de afhankelijke variabele. Het resultaat van de behandeling wordt vergeleken met de verwachting van de onderzoeker wanneer de behandeling niet gegeven zou zijn. Er is geen pre-test, geen randomisatie en geen controlegroep. Alle conclusies die worden getrokken aan de hand van dit design zijn slechts speculaties van de onderzoeker.
Experimentele: non random | IV | Test |
Hoofdstuk 16 - Niet experimenteel of beschrijvend onderzoek
Niet experimentele onderzoeksmethoden worden gebruikt wanneer de manipulatie van een onafhankelijke variabele niet praktisch, mogelijk of ethisch is. Deze techniek van wetenschappelijk onderzoek wordt beschrijvend onderzoek genoemd. Niet experimenteel onderzoek wordt gekenmerkt door observaties of beschrijvingen van de status van een conditie of situatie. Soms is het alleen mogelijk om situaties of acties te bestuderen aan de hand van beschrijvende methoden. De meeste onderzoeken worden uitgevoerd met het gebruik van de basiselementen van de wetenschappelijke methode. Een hypothese wordt opgesteld en getest en conclusies worden getrokken. Het enige verschil met experimenteel onderzoek is dat de hypothese getest wordt aan de hand van niet experimentele methodes. Deze methodes hebben meestal geen goede controle over de experimentele conditie.
Niet experimenteel onderzoek is geen rigoureus middel om de traditionele oorzaak-gevolg relatie te bepalen. De onderzoeker introduceert geen onafhankelijke variabele waarvan het effect gemeten wordt en controleert niet voor externe variabelen. De onderzoeker registreert enkel de aanwezigheid van een variabele als die verschijnt. Dit maakt het moeilijk om te concluderen dat variabele A wordt veroorzaakt door B. De meest logische conclusie die getrokken kan worden is dat variabele A aanwezig is. Een andere factor die het vermogen om een oorzaak-gevolg effect te verklaren vermindert is het niet gerandomiseerd indelen van de deelnemers in groepen. Niet experimenteel onderzoek is gebaseerd op logische gevolgtrekkingen over de connecties tussen variabelen. Dit type associatie wordt een causale relatie genoemd. De meeste epidemiologische studies zijn niet experimenteel. Gebruikers van onderzoek moeten logica gebruiken bij het maken van interpretaties en speculaties. Niet experimenteel onderzoek probeert een functionele relatie tussen variabelen te ontdekken en de associatie te rationaliseren afhankelijk van logica en kennis. Niet experimenteel onderzoek wordt vaak toegepast bij onderwerpen die niet eerder in de diepte bestudeerd zijn. Het initiële doel in dit geval is exploratie.
Survey-onderzoek is een procedure waarin op een brede wijze informatie wordt verzameld. De deelnemer krijgt de mogelijkheid om zijn eigen gedrag de rapporteren. Een beperking aan zelfonderzoek is de vraag of een deelnemer capabel is om valide gegevens te noteren en of een deelnemer naar de waarheid antwoordt. Voordat dit onderzoek uitgevoerd kan worden moet de onderzoeker een gedetailleerd plan opstellen.
Stap 1: Beslis wat je wilt bereiken. De onderzoeker moet een duidelijk en gedefinieerd doel voor het onderzoek hebben en hij moet in staat zijn een hypothese op te stellen die te testen is. Het onderzoek moet vervolgens zo vormgegeven zijn dat de hypothese onderzocht kan worden. Er moet nagedacht worden over bijvoorbeeld het aantal en soort vragen, de variabelen om te evalueren, de voorbereiding van de vragenlijst en de analyse van data.
Stap 2: Selecteer de sample. Een doel van het survey-onderzoek is het generaliseren van de resultaten van de sample naar de populatie. Afbakeningen voor deelnemers moeten worden opgesteld en een systemische en onbevooroordeelde representatieve sample worden oprichten. Onderzoeker moeten de karakteristieken van de deelnemers voorzichtig identificeren. Vervolgens bedenkt de onderzoeker hoeveel deelnemers hij wil hebben. De sample moet groot genoeg zijn om betekenisvolle generalisaties te maken. Tenslotte moet de onderzoeker nadenken over de kosten van zijn onderzoek.
Stap 3: Ontwikkel het instrument. Het ontwikkelen van een valide vragenlijst kost tijd en vaardigheden. Voordat de vragen gemaakt worden moet de onderzoeker een lijst ontwikkelen met de variabelen die hij wil meten. Vervolgens wordt er een tabel gemaakt waarin informatie staat over de gebieden of variabelen waar de onderzoeker naar wil vragen en hoeveel items hiervoor gebruikt worden. Het type vragen heeft een grote invloed op het succes van de survey. Er kunnen open of gesloten vragen gesteld worden. Een type van een gesloten vraag is het simpele rangschikken (Wat vindt u het leukst?). Een andere aanpak is het geschaalde antwoord. Met behulp van de Likert schaal wordt aangegeven hoe zeer men het eens of oneens is met de stelling. Het laatste type is het categorische antwoord. Hierbij wordt simpelweg een antwoord gegeven die in een bepaalde categorie valt (ja/nee, man/vrouw). Het verkorten van de lengte van een vragenlijst zorgt voor meer respons van de deelnemers, er worden meer resultaten verkregen.
Stap 4: Schrijf een omslagbrief. Een goed ontwikkelde vragenlijst wordt erg beperkt als het geen effectieve bijbehorende brief bevat. De brief moet beknopt, aantrekkelijk en professioneel geschreven zijn. De eerste zinnen bevatten informatie over het onderzoek, over het doel ervan en over de achtergrond van de onderzoekers. In de brief moet duidelijk gemaakt worden dat ze potentiële deelnemers zijn, een deel van een geselecteerde groep en dat hun deelname van waarde is. Daarnaast moet de uiterlijke inleverdatum in de brief staan. Normaal gesproken geldt 7 tot 10 dagen voor een korte survey en 2 tot 3 weken voor een langere. Tenslotte moet een envelop inclusief adres en postzegel toegevoegd worden zodat de deelnemer geen extra moeite hoeft te doen om de lijst terug te sturen.
Stap 5: Check it out en doe een proefmeting. Werf een aantal individuen met ervaring in dit type onderzoek en neem de survey af. Deze individuen beoordelen beide documenten op duidelijkheid, formaat, grammatica en verschijning. Het instrument en zijn bijbehorende items moeten geëvalueerd worden voor inhoudsvaliditeit. De proefmeting geeft de onderzoeker ook een idee over de benodigde tijd voor het invullen van de vragenlijst.
Stap 6: Stuur het op. Bedenk wanneer de survey het beste gestuurd kan worden en stuur hem dan op. Als het over het werk gaat, moet de survey naar de werk adressen gestuurd worden. Daarnaast heeft het seizoen invloed op het aantal surveys die teruggekregen worden. Het versturen van een vragenlijst vlak voor de vakantie is ook niet handig, dit leidt tot minder reacties.
Stap 7: Follow up. Een doel van de survey is het terugkrijgen van zoveel mogelijk vragenlijsten. Follow-up technieken verschillen afhankelijk van de uitvoering van de studie. Als de deelnemers anoniem zijn, kan je een nieuwe vragenlijst naar alle deelnemers sturen ongeveer een week nadat de inleverdatum is verstreken. Als de deelnemers bekend zijn, wordt er alleen een herinnering gestuurd naar degene die de vragenlijst nog niet hebben ingevuld.
Stap 8: Vat de resultaten samen en bedank de deelnemers. Het recht van een deelnemer aan een onderzoek is het geïnformeerd worden over de resultaten van het onderzoek. Daarom is de laatste stap het samenvatten van de resultaten en het bedanken van de deelnemers. Dit verhoogt de kans dat deelnemers in een volgende studie weer meedoen.
Naast het gebruik van internet kunnen surveys ook afgenomen worden in persoonlijke interviews. Deze kunnen via de telefoon of face to face plaatsvinden. Deze surveys kosten meestal meer tijd en zijn intensiever dan surveys via internet, maar ze hebben wel de voorkeur bij diepte interviews. Alle procedures hebben verschillende voordelen en nadelen. Ook bij survey-onderzoek is het recht op informed consent aanwezig.
Het doel van correlatieonderzoek is het testen van de relatie tussen variabelen. Door het gebruik van correlatiestatistiek kan de onderzoeker informatie geven over het type en de sterkte van relaties, de voorspelling en de nauwkeurigheid van de voorspelling. De meest gebruikte aanpak zijn de simpele en multipele correlatietechnieken die de relaties tussen twee of meer variabelen onderzoeken. Een van de meest gemaakte fouten in correlatieonderzoek is de aanname van een oorzaak-gevolg relatie. Correlatiestatistiek beeldt alleen de wiskundige relatie tussen variabelen uit. Om een effect te concluderen moet experimenteel onderzoek worden uitgevoerd. Omdat er geen onafhankelijke variabelen geïntroduceerd of gemanipuleerd worden kent het correlatieonderzoek dezelfde beperkingen als andere typen van niet experimenteel onderzoek.
De case studie is een veel gebruikte aanpak in verschillende onderzoeksvelden. Een case studie is een diepgaande analyse van een unieke conditie of situatie. Het doel van de studie is het onderzoeken van zoveel mogelijk aspecten van de deelnemer. Daarnaast wil men uitvinden hoe deze case uniek of verschillend van het normale of verwachtte is. De gebeurtenis of situatie is niet bekend, niet goed begrepen of zeldzaam en daarom is experimenteel onderzoek niet praktisch of onmogelijk. Het maken van generalisaties van een case studie wordt niet gewaarborgd.
Het doel van ontwikkelingsonderzoek is het verklaren van veranderingen in factoren zoals gedrag, groei of kennis gedurende de levenscyclus of een specifieke periode. Longitudinaal onderzoek is het bestuderen van dezelfde deelnemers gedurende een bepaalde tijd. Deze methode heeft de voorkeur maar wordt weinig uitgevoerd omdat het veel tijd kost, de deelnemers gewend raken aan de testprocedures en het Hawthorne effect de factoren negatief beïnvloedt. Daarom wordt ontwikkelingsonderzoek soms uitgevoerd aan de hand van een cross-sectionele aanpak. Dit omvat het genereren van een representatieve steekproef van personen tussen verschillende leeftijdsgroepen.
Epidemiologie is het onderzoek van ziekten. Onderzoek op dit gebied kan experimenteel en niet experimenteel zijn. Niet experimenteel onderzoek zijn vaak beschrijvende studies op grote schaal die een longitudinale of cross-sectionele aanpak kennen. De incidentie van de ziekte is geregistreerd samen met de variabelen geassocieerd met de geobserveerde waarde. Causale relaties kunnen bestaan tussen de ziekte en de variabelen die er meestal mee verschijnen. Het is onethisch om ziekten te introduceren bij mensen, daarom worden er soms dieren gebruikt.
In observatie onderzoek verkrijgt de onderzoeker informatie door het observeren van een bepaald gedrag en het opnemen van de deelnemer. Dit type onderzoek wordt gebruikt wanneer er serieuze vragen bestaan over het vermogen van de deelnemer om accuraat en eerlijke informatie te verstrekken. Veel observaties van gedrag kunnen besmet of gewijzigd worden door de aanwezigheid van een onderzoeker of het presteren in een kunstmatige omgeving. Daarom is het soms noodzakelijk om opnames te maken vanuit een onopvallende positie.
Beschrijvend onderzoek probeert geselecteerde betekenisvolle karakteristieken te omschrijven van een onderscheidende groep. Het doel is het vergelijken van deze karaktertrekken met die van andere groepen, normatieve informatie te ontwikkelen of simpelweg een profiel van de groep op te stellen. Ex post facto is gebaseerd op vroegere data om huidige vragen te beantwoorden of om een nieuwe hypothese te testen. Een meta-analyse is een vorm van data analyse aan de hand van resultaten uit gepubliceerde onderzoeken om een nieuwe hypothese te testen. Onderzoeken die dezelfde variabele onderzoeken kunnen geïnspecteerd worden en relevante data wordt gebruikt om de effect size of de grootte van het effect te berekenen.
Hoofdstuk 17 - Kwalitatieve onderzoeksmethoden
Kwantitatief vs kwalitatief onderzoek
Kwalitatief onderzoek dankt zijn origine aan de disciplines van antropologie en sociologie. Gelijk aan kwantitatief onderzoek is kwalitatief onderzoek rigoureus, gedisciplineerd en systematisch en biedt het een alternatieve aanpak voor kwantitatieve onderzoekstechnieken. In kwantitatief onderzoek wordt het design en de variabelen gedefinieerd voordat de data verzameld wordt. In kwalitatief onderzoek is het design en de gemeten variabelen flexibel en afhankelijk van de context van de datacollectie. Kwantitatief onderzoek vereist het zorgvuldig opstellen van variabelen die gekwantificeerd kunnen worden door getallen. Deze methode wordt het reductionisme genoemd. Het kwalitatieve onderzoek is geïnteresseerd in het complete of het holistische perspectief, waarin onderliggende waarden en de context als deel van het fenomeen worden gezien. Het kwantitatieve paradigma veronderstelt dat variabelen objectief gemeten kunnen worden. Kwalitatieve methodes veronderstellen dat slechts gedeeltelijke objectieve verklaringen geproduceerd kunnen worden en geïnterpreteerd kunnen worden op verscheidene manieren. Kwantitatief onderzoek is gebaseerd op deductief redeneren, dit betekent van algemeen tot specifiek. Kwalitatief onderzoek is gebaseerd op inductief redeneren, van specifiek tot algemeen. De resultaten van kwantitatief onderzoek worden geanalyseerd aan de hand van statistiek. Kwalitatief onderzoek is vrijblijvend en kent een flexibele aanpak voor het stellen van verklaringen.
Case studie
Case studie is een empirisch onderzoek dat een fenomeen gelijktijdig bekijkt met zijn context in het echte leven. Het lijkt op kwantitatief onderzoek omdat er een onderzoekvraag wordt gesteld, een passend design wordt gezocht, datacollectie en analysemethoden worden vergeleken en er een generalisatie wordt gemaakt over de resultaten. De case studie kan simpel zijn, omgaan met één beslissing, of complex waarbij er omgegaan wordt met vele ingewikkelde en onderlinge beslissingen. Het voordeel van een case studie is de omvangrijke documentatie van de context. Daarnaast biedt het een mogelijkheid voor kritische reflectie op verschillende alternatieven. Verschillende case studies over hetzelfde onderwerp helpen om patronen te identificeren. Een nadeel is het onvermogen om het volledige verhaal te vertellen. Daarnaast kan het geen causaliteit demonstreren.
Focus groep
Marketing onderzoekers gebruiken deze methode om de negatieve en positieve verwachtingen te testen over bijvoorbeeld een nieuw product. Focusgroepen zijn onmisbaar voor het verzamelen van vroege indrukken. Focusgroepen worden ook gebruikt in het ontwikkelen en wijzigen van psychometrische instrumenten. Deze methode brengt een gedetailleerd protocol met zich mee. In het ontwikkelen van het protocol bepaalt de onderzoeker eerst het onderwerp. De tijd gepland voor focusgroepen bedraagt meestal één tot twee uur. De richtlijnen beginnen met bepalingen over de leden van de focusgroep. Het is belangrijk de instructies simpel en kort te houden. Voor het voeren van een eerlijke discussie is het belangrijk dat de deelnemers elkaar niet kennen. Elke discussie start met een introductie waarin de deelnemers worden bedankt voor hun deelname. Het proces wordt uitgelegd en er wordt gemeld dat elke bijdrage van iedereen nuttig is. Daarnaast moet de mogelijkheid gegeven worden aan de deelnemers om zichzelf voor te stellen. Na het tekenen van consent door de deelnemers kan de discussie opgenomen worden. Bij het analyseren moet de hele tape worden afgeluisterd en de analist heeft speciale aandacht voor aarzelingen, stiltes, nadrukken en de daadwerkelijk gebruikte woorden. Het voordeel van focusgroepen is de goedkope manier van het relatief snel verzamelen van data. Een nadeel is dat de deelnemers misschien niet representatief zijn voor de gehele samenleving of populatie.
Nominale groepen
Dit proces is een kwalitatieve techniek die vaak gebruikt wordt voor de schatting van een doelpopulatie. Het belangrijkste voordeel is dat het een rang toe laat voor de problemen. De nominale groep heeft het vinden van een oplossing voor een probleem niet als doel. De nominale groep bepaalt welke problemen het belangrijkste zijn en als eerste opgelost moeten worden. De eerste stap in het uitvoeren van een nominaal groepsproces is het formuleren van het probleem in een enkele vraag. In de tweede stap worden deelnemers direct in het probleem betrokken. Daarna krijgen de deelnemers de kans om het probleem of de vraag te reflecteren. In de vierde stap worden alle antwoorden verzameld en weergegeven op een schoolbord. Er is geen discussie toegestaan totdat alle antwoorden opgenomen zijn. De vijfde stap is het verhelderen en het verkennen van de logica achter de keuze. Er mogen geen argumentaties gegeven worden. In de zesde stap moeten de deelnemers hun top vijf items rangschikken, waarin vijf het belangrijkste is. Tenslotte wordt een overzicht van de resultaten gemaakt.
Inhoudsanalyse
Inhoudsanalyse is het proces van organiseren en integreren van kwalitatieve informatie volgens de onderwerpen en concepten. Het is een procedure om geschreven of verbale communicatie te analyseren op een systematische en objectieve manier. De delen van de analyses in de inhoudsanalyse zijn de lengte van het artikel, het aantal individuele woorden en de onderwerpen. Soms bevat een analyse een item zoals een email, presentatie, artikel of tijdschriftissue. Het voordeel van de inhoudsanalyse is zijn vermogen om een kwalitatieve methode met een kwantitatieve methode te combineren. Inhoudsanalyses helpen de onderzoek om programma’s te plannen en te evalueren. Een valkuil van deze analyse is het risico op subjectiviteit.
Kwalitatief design
Sampling in kwalitatief onderzoek wordt doelbewust of betekenisvol sampling genoemd. De algemene types zijn:
1. Gelegenheidssteekproeven die beschikbare mensen met zich meebrengen als deelnemers voor het onderzoek.
2. Sneeuwbal, netwerk of ketensamples waarbij eerdere deelnemers gevraagd worden om verwijzingen te maken.
3. Politiek belangrijke case samples die informatie van leiders of deelnemers geïdentificeerd door leiders met zich mee brengen.
Ondanks de flexibiliteit die door doelbewuste sampling ontstaat, moet de lezer zich bewust zijn van drie mogelijke fouten in het samplingproces:
1. Onvoldoende breedte in sampling.
2. Vervormingen door datacollecties uitgespreid over een lange periode.
3. Vervormingen door onvoldoende diepte.
Voor kwalitatief onderzoek zijn interviews en observaties blijvend de voornaamste vorm voor het verzamelen van data. Interviews brengen in het algemeen open vragen met zich mee. In een informeel conversatie interview heeft de onderzoeker geen plan en wordt geleid voor zijn instinct. Dit maakt het maken van een overzicht lastig, vooral bij meerdere deelnemers. In een semigestructureerd interview is een schema of script voorbereid, maar is de interviewer vrij om vragen over te slaan of toe te voegen. Dit biedt meer flexibiliteit waardoor het makkelijker wordt om data te verzamelen. Bij standaard open vragen interviews staan alle vragen genoteerd en stelt de interviewer alleen deze vragen. De meeste kwalitatieve onderzoekers gebruiken een datarecorder voor de opnames en transcriptie bij het uitvoeren van interviews.
De eerste stap in het analyseren van data van kwalitatief onderzoek is open coding, waarin de onderzoeker bepaalt in welke categorieën de data wordt gecodeerd. De tweede stap is de audit trial, waarvoor de onderzoeker een middel nodig heeft om de data te koppelen. De derde stap in de data analyse is de axial coding. In deze stap begint de onderzoeker het complete plaatje in elkaar te zetten waarin de gebeurtenissen betrekking hebben op het onderzoeksonderwerp, gerelateerde onderwerpen en implicaties van het onderzoek. Tenslotte adresseert de onderzoeker de data interpretatie zoals de betrouwbaarheid, afhankelijkheid, overdraagbaarheid en geloofwaardigheid. De betrouwbaarheid heeft betrekking op de specifiek gekozen methode voor zijn onderzoek. De geloofwaardigheid is gelijk aan het concept van interne validiteit bij kwantitatief onderzoek. De samenhang is een essentiële factor over de omvang waarin het uiteindelijke onderzoek zinvol is. Tot slot is de overdraagbaarheid is gelijk aan het begrip externe validiteit, de mate van generaliseerbaarheid naar de populatie.
Deel 5. Kwaliteitcontrole en toepassing van onderzoek
Hoofdstuk 18 - Kwaliteitcontrole in onderzoek
Interne kwaliteitcontrole
Interne kwaliteitcontrole in onderzoek kan beschouwd worden als een individu of een eenheid binnen een institutie die de onderzoeksprojecten goedkeurt en de rechten van de deelnemers beschermt. Deze meting beïnvloedt de kwaliteit van het onderzoek tot het punt waar de onderzoeker pogingen onderneemt om zijn onderzoek te publiceren of de resultaten te presenteren.
De meeste afdelingen hebben een persoon of comité die verantwoordelijk is voor het nakijken van onderzoeksvoorstellen voordat het onderzoek uitgevoerd mag worden. Veel van wat wordt bereikt met het peer review proces is het bewerken van het voorstel met betrekking tot de inhoud en de methode en de evaluatie van de wetenschappelijke verdienste. Eén van de grootste problemen met deze procedure is gerelateerd aan het vermogen van een faculteitmedewerker om het werk van een ander te evalueren. Peer review werkt het beste wanneer iemand met een gelijk niveau van ervaring in hetzelfde gebied of studie het voorstel bekritiseert. Het vindt meestal op informeel niveau plaats.
Studenten die een thesis of proefschrift schrijven worden regelmatig beoordeeld door hun commissieleden. De twee meest belangrijke reviews zijn de formele presentatie van het onderzoeksvoorstel en de uiteindelijke thesis. Het forum waar het voorstel of de thesis wordt gepresenteerd wordt een colloquium genoemd. Dit zijn over het algemeen publieke presentaties waarbij de gehele faculteit en studenten uitgenodigd worden. Het doel van deze presentaties is het voorzien van de student van behulpzame kritiek en suggesties. Dit proces is een goede leerervaring voor de student. De student moet zijn thesis succesvol verdedigen om zijn diploma te behalen. De thesis is een gestructureerde en begeleide ervaring met veel kwaliteit controlemetingen. Het doel van een onderzoeksproject is het publiceren of presenteren van de resultaten.
De IRB of het institutioneel review bord is één van de meest belangrijkste mechanismen voor interne kwaliteitcontrole. De IRB bestaat ten eerste om onderzoekers te assisteren bij het beschermen van hun onderzoeksdeelnemers. Bij een wetenschappelijke en ethische studie staat niet alleen de bescherming van de deelnemers centraal, maar indirect ook de reputatie van de onderzoeker of de institutie. Deelnemers moeten verdeeld worden in menselijke of dierlijke onderwerpen. Dieren worden slechts gebruikt in een klein aantal onderzoeken op hoog gespecialiseerde gebieden. Elke institutie die geld van de overheid ontvangt om onderzoek te kunnen uitvoeren moet een speciale commissie in het leven roepen om de onderzoeksvoorstellen te beoordelen in onderzoeken waar gebruik wordt gemaakt van menselijke deelnemers. Logischerwijs moet een institutie die met menselijke deelnemers werkt het welzijn van zijn deelnemers moeten waarborgen en daarom een IRB hebben. De IRB bevat leden die een grote verscheidenheid aan academische specialismen vertonen. Het materiaal dat de onderzoeker toevoegt aan het IRB is vaak een gedetailleerd beschreven onderzoeksvoorstel en bijbehorende informed consent. Onderzoeksvoorstellen worden geclassificeerd in drie niveaus; vrijgesteld, versneld of volledig. Waarbij vrijgestelde onderzoeken vaak routineonderzoeken zijn zonder risico voor de deelnemer. Versnelde studies worden gecontroleerd aan de hand van het kleine risico voor de deelnemer. Het onderzoeksvoorstel wordt beoordeeld maar niet gedetailleerd bekeken. Onderzoeken die volledig gecontroleerd worden bevatten een groter dan minimaal risico voor de deelnemer. De onderzoeker is als eerste verantwoordelijk voor het voldoen van alle IRB richtlijnen en regels.
Externe kwaliteitcontrole
Na het verzamelen van de data en het vormen van de statistische analyses moet de onderzoeker bepalen of het onderzoek het waard is om gedeeld te worden met de professionele gemeenschap, inclusief studenten. Iedereen die onderzoek heeft gedaan vindt zijn onderzoek betekenisvol, maar dit varieert vaak. De studie kan bijvoorbeeld al eerder uitgevoerd zijn of de studie heeft gebruik gemaakt van onacceptabele methodes of een verkeerd onderzoeksdesign. Daarnaast moet de onderzoeker bepalen welk tijdschrift hij gaat aanschrijven en hier een manuscript voor schrijven. Vervolgens selecteert de uitgever van het tijdschrift één of twee mensen die het onderzoek gaan beoordelen. In de meeste gevallen wordt een blinde review gedaan, hierbij staan er geen auteursnamen op het onderzoek. Daarnaast weten de auteurs ook niet door wie de review wordt uitgevoerd. De reviewers delen hun kritische bevindingen met de uitgever die vervolgens bepaalt of het manuscript voor publicatie wordt geaccepteerd, verworpen of dat het artikel aangepast moet worden. Na het aanpassen van het artikel stuurt de onderzoeker hem terug voor een tweede check. Elk review kost twee tot vier maanden en het totale proces duurt vaak meer dan een jaar.
Reviewers hebben een grote verantwoordelijkheid. Ze bepalen niet alleen welke artikelen er in een tijdschrift verschijnen, maar ook welke kennis mensen toegereikt krijgen, welke lessen leraren geven en wat er in tekstboeken verschijnt. De grootste beperking aan het reviewproces is de inconsistentie van de kritiek van de reviewers. Vaak hebben reviewers andere meningen, dit leidt tot een slechte betrouwbaarheid. Reviewers zouden meer oriëntatie en ervaring en betere richtlijnen moeten hebben om de procedure te verbeteren. Door de subjectiviteit in het proces is het proces verre van perfect. Toch is het reviewproces één van de belangrijkste en tijdrovende kwaliteitcontrole metingen voor onderzoek. Daarnaast moet men begrijpen dat niet alle gepubliceerde onderzoeken van hoge kwaliteit zijn.
Veel Universiteiten stellen het onderzoek als missie om een graad te behalen. Als het doctoraal wordt toegekend krijgt de professor een baan aangeboden op de Universiteit voor de rest van zijn carrière. Het behalen van dit doctoraal is dus de ultieme baangarantie. Als de Universiteit een hoge evaluatie in het onderzoeksgebied vereist kunnen medewerkers in een publish-or-perish situatie worden geplaatst. Hierdoor worden onderzoeker gestimuleerd om een publicatie op hun naam te schrijven. Universiteiten gebruiken vaak het nummer van gepubliceerde artikelen van hun faculteit als mate van onderzoeksproductiviteit. Men heeft altijd te maken met de kwaliteit versus kwantiteit probleem. Een aanpak is om de tijd die gebruikt mag worden voor een onderzoek plus publicatie te verlengen tot tien jaar. Een andere strategie is het beperken van het aantal publicaties die een medewerker mag aandragen. Hierdoor wordt de kwaliteit van het onderzoek vaak vergroot. Een bepaald aantal onderzoeken eisen van een onderzoeker draagt juist bij aan vermindering van de kwaliteit. Instituties verschillen allemaal in onderzoek en productiviteitsstandaarden.
Hoofdstuk 19 - Assessment en toepassing van onderzoek
Dit hoofdstuk focust op het verhogen van je vermogen om onderzoek te interpreteren, bevindingen te integreren in een bepaald onderwerp en bepalen welke informatie toegepast kan worden in de echte samenleving of populatie. Blinde acceptatie van datgene wat geschreven is komt veel vaker voor dan zou moeten. Informatie kan elektronisch snel gezocht worden en er zijn veel verschillende bronnen beschikbaar op internet.
Elk onderzoek moet beoordeelt worden op zijn academische verdiensten, inclusief de interne validiteit en beperkingen. Een primair criterium voor interne validiteit is een adequaat deelnemersaantal. Grote deelnemersaantallen zorgen voor een verhoging van de statistische significantie. Daarnaast zijn sample size en de power van een test direct aan elkaar verbonden. De power is het vermogen om een nulhypothese terecht te verwerpen. Een groot deelnemersaantal verkrijgt eerder significantie omdat het de meetfouten verminderd. Een groot aantal deelnemers representeert de populatie beter dan een klein aantal deelnemers. Een grote t-waarde of F-ratio vergroot de mogelijkheid op het verkrijgen van statistische significantie. Bij een klein aantal deelnemers is de kans op een type 2 fout vergroot. Dit leidt vaak tot de conclusie dat een verschil of relatie niet significant is. Het minimaal aantal deelnemers die toegevoegd moet worden in de studie kan met de onderstaande formule worden berekend. SD is de standaarddeviatie in gelijkwaardige onderzoeken, t is de t-ratio met een significantieniveau van .05 in gelijke studies en D is het verschil tussen de twee variabelen in praktische significantie.
N = 2 SD(t2) / D2
Onderzoeken die gedaan worden buiten het laboratorium moeten een groot aantal deelnemers omvatten omdat de mogelijke invloed van externe variabelen groter is. Een grotere sample size is nodig om de variantie tussen de deelnemers te verminderen. Daarnaast moet een ANCOVA worden toegepast om de deelnemersgroepen meer equivalent aan elkaar te maken. Wanneer het verwachtte verschil in de metingen klein is, moet men een groter deelnemersaantal gebruiken. Een groot deelnemersaantal is nodig in studies waarin vele externe variabelen de afhankelijke variabele kunnen beïnvloeden en wanneer er een klein effect op de afhankelijke variabele wordt verwacht.
De nauwkeurigheid van de metingen in een onderzoek is kritiek. Daarom beschrijven bijvoorbeeld tijdschriftartikelen de metingen in de methodesectie erg gedetailleerd. Soms lijken bepaalde stukken zinloos, maar ze kunnen toch belangrijk zijn voor de lezer die zich bijvoorbeeld realiseert dat de kalibratie en het gebruik van de instrumenten de verkregen data kunnen beïnvloeden.
De variantie tussen deelnemers beïnvloedt de statistische power. Een grote standaarddeviatie vergroot de teller en verhoogt hierbij het aantal benodigde deelnemers. Daarnaast vermindert de standaarddeviatie de error variantie voor de t-ratio en F-ratio. Onderzoekers moeten zich inspannen om deelnemers te selecteren met beperkte variantie op de afhankelijke variabele, om zo de interne validiteit te optimaliseren.
Het vergroten van het deelnemersaantal is niet altijd mogelijk door tijdsbeperkingen en financiële beperkingen. Daarom wordt als alternatief gesuggereerd om het significantieniveau te verlagen van .05 naar .10. De waarschijnlijkheid op het maken van een type-1 fout is hierbij vergroot, maar men beweert dat deze fout in één onderzoek de resultaten van vorige onderzoeken niet ondermijnt. Er zal meer onderzoek voortgebracht worden als onderzoekers een betere waarschijnlijkheid hebben op een significant resultaat, dus door het gebruiken van een significantieniveau van .10 in plaats van .05. Het wordt aanbevolen om significantieniveaus te rapporteren voor alle bestudeerde variabelen. Hierdoor kan de lezer zelf oordelen over de type-1 fout. Alleen de indicatie of een bevinding significant is of niet, laat belangrijke informatie achterwege.
Significantie is gerelateerd aan de waarschijnlijkheid van een verschil of relatie echt is. Het effect van de behandeling refereert aan de grootte of omvang van de verschillen tussen groepen. Bijna alle onderzoeken tonen significantie, maar bijna geen kwantificeert het behandelingseffect of de verklaarde variantie. Behandelingseffecten moeten gekwantificeerd worden wanneer het mogelijk is. De makkelijkste manier is om het percentage verschil tussen groepen te rapporteren. Een tweede manier is het bepalen van de omegakwadraat of de determinatiecoëfficiënt. De omegakwadraat indiceert het percentage variantie die toegeschreven kan worden aan het effect van de behandeling. De derde methode is het berekenen van de effectgrootte, dit kan met behulp van onderstaande formule. Me is het gemiddelde van de experimentele groep, Mc is het gemiddelde van de controlegroep en SD is de standaarddeviatie van de controlegroep. Een effectgrootte van 0.2 indiceert een klein verschil, 0.5 een gemiddeld verschil en 0.8 een groot verschil. Als de effectgrootte wordt uitgedrukt kan meteen de vergelijking gemaakt worden met andere studies en onderzoeken. Het kan betekenisvoller zijn om de effectgrootte te analyseren dan de significantie, omdat de significantie duidelijk afhankelijk is van de samplegrootte en variantie.
Effect size = (Me - Mc) / SD
Hoewel de standaarden voor het publiceren in de meeste tijdschriften hoog liggen, is niet alles wat gedrukt staat juist en geen enkel onderzoek is perfect. Alle manuscripten worden beoordeeld door experts, maar dit garandeert niet dat elke studie gebruik maakt van het beste design, de beste methodes of statistische aanpak. Alle onderzoeken hebben hun eigen beperkingen en de lezer moet dit beseffen. In veel disciplines moeten we ons bewust zijn van de commerciële aanpak van de problemen van mensen. Gewichtsverlies, gezond eten, hardloopschoenen en sportkleren is flinke handel. Een veel gebruikte strategie hierbij is het gebruiken van bekende mensen voor verschillende commercials en reclames.
De neiging om al het bovenstaande te schenden wordt de post hoc error genoemd. Bijvoorbeeld als een vrouw een hardloopprogramma start en ze binnen zes maanden scheidt van haar man, betekent dit niet dat men kan concluderen dat het hardlopen de scheiding heeft veroorzaakt. Dit voorbeeld lijkt heel onlogisch, maar in een professionele context kan het ineens voor logisch aangezien worden. Om een oorzaak en gevolg relatie aan te tonen moet een experimenteel design worden gebruikt. Groepen moeten random worden samengesteld uit deelnemers en de controle. Niet elke voordelige verandering in gedrag gedurende en na een experimentele periode kan toegeschreven worden aan de onafhankelijke variabele.
Interpreteren en samenvatting van de onderzoeksresultaten
Een moeilijke taak is het samenvatten van bevindingen van een bepaald onderwerp aan de hand van verschillende onderzoeken. Tussen de onderzoeken vindt men namelijk verschil in deelnemers en hun karakteristieken, andere meetdetails, andere behandeling en andere toegepaste statistiek. De meeste onderzoekstijdschriften voegen af en toe review artikels toe. Reviews bevatten meestal een discussie van de punten waar onduidelijkheden over bestonden en aanbevelingen voor het onderwerp. Het lezen van deze reviews helpt om de kennis van de onderzoeken te interpreteren. Daarnaast is het overzichtelijk en kan het helpen om een overzichtstabel van onderzoeken te maken. Hierin staan alle gebruikte en gelezen onderzoeken. De onderzoeken worden gerangschikt aan de hand van de bruikbare informatie, bijvoorbeeld de conclusies, het onderzoeksdesign of de deelnemers. Daarnaast kunnen meta-analyses worden gebruikt. Meta-analyses kwantificeren de effectgrootte van meerdere studies en trekken conclusies uit de gebruikte literatuur.
Tips voor het interpreteren van onderzoek:
1. Realiseer je dat de statistiek misbruikt kan zijn. Statistiek en getallen worden flink gerespecteerd in de huidige samenleving. Iedereen gebruikt getallen om iets te beoordelen, maar soms klopt de logica achter de statistiek niet. Wees voorzichtig met het interpreteren van percentages van verandering. Hoewel een percentage een veel gebruikte en effectieve manier is om de mate van verandering aan te geven, kunnen de interpretaties van de resultaten soms overdreven zijn.
2. Wanneer een bevinding niet significant is, kijk naar de samplegrootte. Statistische significantie wordt beïnvloed door de samplegrootte. Bedenk dus om naar de samplegrootte te kijken op het moment dat er geen significante verschillen of relaties zijn gevonden in een onderzoek. Als het deelnemersaantal klein is, is de kans op een type-2 fout vergroot. Besluit dus niet meteen dat een onafhankelijke variabele geen effect had, want misschien was het effect wel significant geweest met meer deelnemers.
3. Wees voorzichtig met bevooroordeelde samples. De interpretatie van resultaten van onderzoeken moet de overwegingen omvatten over de gebruikte deelnemersgroep. Er moet gecontroleerd worden op de groepen verdeeld zijn op basis van randomisatie of dat de bevooroordeelde onderzoeker deze groepen heeft samengesteld.
4. Bestudeer figuren precies, ze kunnen bevindingen verdraaien. Soms wordt dit expres gedaan om aandacht te wekken bij de lezers. Door het gebruik van verschillende groottes en stappen voor de gepresenteerde variabele kan het effect vergroot of verkleind lijken. Dit is echter niet het geval, maar de opmaak van een figuur kan de juiste data op verschillende manieren weergeven.
5. Correlatie en statistiek betekenen geen oorzaak-gevolg. Een voorbeeld is het dragen van warme kleren in de winter. Wanneer mensen met koud weer dikke kleren dragen zou iemand kunnen concluderen dat het dragen van dikke kleren leidt tot koud weer. Dit is natuurlijk niet het geval, er moet logisch nagedacht worden over de oorzaak-gevolg relaties.
6. Verwacht dat onderzoeksresultaten gemengd zijn. Onderzoeken met dezelfde onderzoeksvraag gebruiken verschillende deelnemers, verschillende technieken en verschillende mensen om de resultaten te analyseren. Hierdoor heeft elke test met dezelfde onderzoeksvraag andere resultaten. Bereid je daar op voor.
7. Wees voorzichtig met onderzoeksrapporten in de media. Medische verhalen op televisie en in kranten bevatten vaak onjuiste informatie. Het voordeel van medicatie wordt bijvoorbeeld behoorlijk overdreven terwijl de risico’s geminimaliseerd worden. Je moet bedenken dat nieuwslezers en schrijvers niet specifiek opgeleid zijn om onderzoek te kunnen uitvoeren en interpreteren en daarom niet alle nieuwsartikelen voor waar aannemen.
8. Wees op je hoede voor onderzoeken waar belangenconflicten kunnen bestaan. In sommige onderzoeksgebieden zijn een aantal onderzoekers vanuit verschillende disciplines werkzaam. Deze onderzoekers kunnen allemaal een bepaald belang hebben bij het uitvoeren van een onderzoek. Ook hier moet rekening mee gehouden worden bij het interpreteren van onderzoeksresultaten.
9. Onderzoeken met een statistisch significante bevinding worden vaker gepubliceerd dan onderzoeken zonder statistische bevindingen. Sommige van de onderzoeksliteratuur is bevooroordeeld. Het is natuurlijk mooier en interessanter om onderzoeken te publiceren waarin een significant verschil of relatie gevonden is. Het niet optreden van een significant verschil in een onderzoek kan erg interessant of nuttig zijn, maar deze onderzoeken worden helaas minder vaak gepubliceerd.
Technisch gezien is de enige juiste toepassing van de resultaten van een onderzoek de toepassing op de deelnemers van het onderzoek zelf. Pas na verschillende herhalingen en replicaties van het onderzoek door andere instituties kunnen resultaten veilig gegeneraliseerd worden. De resultaten van een enkele studie zijn eigenlijk alleen observaties van een sample.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
989 |
Add new contribution