Samenvatting Gedragsobservatie: een inleiding tot systematisch observeren van van de Sande

DEEL 1: WAT IS OBSERVATIE?
DEEL 2: CONTROLES
DEEL 3: BEGINFASE VAN HET ONDERZOEK
DEEL 4: HET GEDRAG INDELEN

DEEL 1: WAT IS OBSERVATIE?

Van observatiekunde tot observatiekunst, oftewel: het verschil tussen een tekenleerling en Rembrandt.

Observeren houdt in het waarnemen met de zintuigen, dan onthouden door middel van interne (geheugen) of externe (opschrijven of door middel van bijvoorbeeld videoregistratie) bronnen en als laatste interpreteren van de informatie. Bij observatie heb je te maken met eerstehands kennis, omdat de kennis direct verkregen wordt. Tweedehands kennis verkrijg je door het raadplegen van externe bronnen, zoals andere personen of de media. Enkele veelgebruikte richtingen waar het observatieonderzoek veel gebruikt wordt, zijn: ontwikkeling van kleine kinderen, arbeidsanalyse, medici, antropologie, bewegingswetenschap en sociologie.

Als je observeert, hou je je bezig met een wetenschappelijke dataverzamelingsmethode; je kijkt of luistert en trekt dan een conclusie. Observatie wordt wetenschappelijk door het hanteren van een meetprocedure, je drukt gedrag uit in meeteenheden. Het meetinstrument bij observatie is de mens, maar er zijn ook hulpmiddelen zoals technische apparatuur. Voordeel van de mens als meetinstrument is flexibiliteit en intelligentie, nadeel is dat mensen veranderlijk en subjectief zijn. De verschillende niveaus om te meten zijn:

Nominaal, het systematisch naamgeven of labelen, dus zonder getallen; kwalitatief meten. Bijvoorbeeld man/ vrouw of rood/ blauw /groen.
Ordinaal, labelen zoals bij rating (bijvoorbeeld een cijfer geven van 1 tot 10); kwalitatief meten.
Ratio, er is een nulpunt, dus mag je delen en vermenigvuldigen. Voorbeeld is (leef)tijd of tellen.
Interval, als de onderlinge afstand gelijk is, mag je optellen en aftrekken, maar niet vermenigvuldigen, want er is geen nulpunt. Voorbeeld is IQ of graden Celsius.

Observeren van gedrag kan gericht zijn op resultaten of prestaties en kan dan meestal simpelweg worden geteld. Ook kun je vorm en inhoud van gedrag observeren, maar deze methodische observatie is veel ingewikkelder en een criterium is dat je rekening houdt met de base rate, de gemiddelde normale waarde. Geen gedragsobservatie, maar wel een belangrijk hulpmiddel en bron van informatie, is zelfobservatie zoals dat gebeurt door bijvoorbeeld vragenlijsten. Het is wel makkelijker dan het interpreteren van gedrag en het kost minder tijd en is minder dubbelzinnig.

Het voordeel van observatieonderzoek boven vragenlijsten is, dat je kunt profiteren van een zekere mate van voorspelbaarheid van gedrag. Ook geeft het observeren van gedrag een zekere vrijheid en complexiteit die je weer kunt verminderen door het gedrag op te delen in events/ gedragselementen, die een categorie vormen. Je probeert de werkelijkheid terug te brengen tot een set data. Je moet gedrag opdelen in een systeem van gedragscategorieën.

Het is moeilijk om objectiviteit te bereiken, omdat kennis door waarneming wordt ingepast in een persoonlijk referentiekader of aangepast aan al bestaande info. Dit komt door:

Subjectiviteit, het in een context plaatsen en inpassen en aanpassen van waargenomen informatie. Interpretaties worden beïnvloed door de persoon die interpreteert. Als veel mensen hetzelfde vinden, zou dat objectiever moeten zijn, is de redenatie achter intersubjectiviteit. Interpreteren moet nu eenmaal bij observatie en moet ook door verschillende observatoren gedaan kunnen worden met dezelfde uitkomst. Dus worden er regels opgesteld om de intersubjectiviteit in te perken. Dit heet coderen en het is belangrijk om deze regels bij het onderzoek te vermelden. Echter, er is ook zoiets als gedeelde subjectieve waarneming, zoals bij mensen met hetzelfde geloof, wat niet hetzelfde is als intersubjectiviteit en ook niet wenselijk voor wetenschappelijk onderzoek.

Voordelen: persoonlijke creativiteit wordt in stand gehouden en zorgt voor nieuwe invalshoeken.

Nadelen: wetenschappelijke conclusies trekken wordt moeilijk.

Selectiviteit, de beperktheid van zintuigen en verstand om te kunnen waarnemen, waardoor selectie van de informatie plaats moet vinden. Selectie is een noodzaak, vanwege de overmaat aan stimuli die je (in het dagelijks leven) tegenkomt, dus vloeit het meestal voort uit interesse. In de wetenschap wordt dit in de hand gehouden door een categorieënsysteem te maken naar aanleiding van de onderzoeksvraag. Maar dit komt later aan bod.

Voordelen: al is het noodgedwongen, de informatieverwerkingscapaciteit wordt gespaard.

Nadelen: het risico om belangrijke dingen over het hoofd te zien.

Vaak is het moeilijk om beide factoren uit te sluiten, maar ze kunnen wel degelijk een goed beeld van de werkelijkheid geven. Objectiviteit houdt in proberen selectiviteit en subjectiviteit te beheersen. Ze oefenen een sterke wederzijdse invloed op elkaar uit en gaan daardoor vaak samen. Training van de observatoren en ervaring kunnen dit verminderen.

Er zijn verschillende soorten observatie, zoals dagelijkse en beroepsgebonden/ professionele (bijvoorbeeld artsen of politieagenten). De gedragsobservatie waarmee we ons hier bezig houden, is wetenschappelijke/ systematische observatie. Het verschil met dagelijkse of professionele observatie is, dat wetenschap gebruik maakt van regels. Regels voor de onderzoeksopzet, selectiviteit en situatie en regels over de codering en subjectiviteit. Je kunt ook een andere indeling maken van soorten observatie, namelijk naar betrokkenheid, dus naar de mate waarin de observator al of niet onderdeel uitmaakt van de situatie.

Systematische observatie, is het maken van een vereenvoudigde afbeelding van de werkelijkheid en streeft naar hoge objectiviteit en geen betrokkenheid. Het gaat hierbij vooral om het formeel verzamelen van gegevens (data), naar aanleiding van de vraagstelling. Het boek gaat vooral uit van deze wetenschappelijke benadering van observatie, die bepaalde aspecten van de werkelijkheid volgens regels kwantificeert. Kwantificeren houdt in dat je uitspraken kunt doen over meer of minder vaak of meer of minder lang, dus is het nominale meetniveau meestal niet bruikbaar bij systematisch observeren. Vooral tellen en meten dus, zo hoog mogelijke betrouwbaarheid en validiteit te behalen.
De tegengestelde methode is die van beschrijvende observatie, dat zich bezig houdt met verhoudingen van aspecten. Een voorbeeld is een protocol. Dit is een schriftelijke beschrijving van wat er precies is voorgevallen. Beschrijvende observatie gaat uit van een bredere vraagstelling, minder richtlijnen met betrekking tot selectiviteit en subjectiviteit en achteraf bijstellen en concluderen. De observator heeft een moeilijke taak om op zoveel dingen te letten, daarom zijn er ook wel Assessment Centers, waar de dataverzameling systematischer is.
Zelfobservatie is interessant met betrekking tot de betrokkenheid, want die is als het om jezelf gaat, groot. Om uitspraken te doen moet die minder zijn en moet je sceptisch naar jezelf kijken. Een manier van zelfobservatie is introspectie, het bij jezelf nagaan en registreren van wat je voelt en ervaart. Een heel andere manier is je eigen gedrag observeren door er gewoon op te letten, zoals bij een sjiek diner, of met behulp van video. Als je er zelf op let, zul je een positief beeld van jezelf hebben en een hoger zelfbewustzijn en pas je je meer aan normen aan.
De naam zegt het al, bij participerend observeren is er een hoge mate van betrokkenheid van de observator. Althans, dat lijkt zo, want hoewel hij wel deel uit maakt van de situatie, moet hij toch een afstand houden om goed te kunnen observeren. Anders versterkt het zelfbewustzijn van de participanten en gaan ze een image vestigen, zoals je bijvoorbeeld ziet als mensen plotseling gaan herrie maken als ze gefilmd worden bij een sportwedstrijd.

De onderzoeksopzet is dus heel anders, want de observator mag niet als dusdanig herkend worden, dus is het bijvoorbeeld lastig om aantekeningen te maken. De observator is een insider en kan daarom goed onderzoek doen naar de normen en waarden van de groep, vandaar dat veel gebruik wordt gemaakt van kwalitatieve analyse. In de ethologie heeft men problemen met het participerend observeren, omdat het lastig is om je in een kudde dieren te mengen en menselijke termen te gebruiken om het dierengedrag te verklaren.

DEEL 2: CONTROLES

Er worden hier stappen aangegeven om zelf onderzoek te doen. Globaal gaat het als volgt in zijn werk: eerst moet tot een vraagstelling en eventuele hypothese gekomen worden, dan moet een construct en de bijbehorende variabelen om te meten gekozen worden. Dan moeten naar aanleiding van vooronderzoek problemen worden bijgesteld. Nu de basis is vastgesteld, moet een ethogram en categorieënsysteem gemaakt worden om begrippen te operationaliseren. Als de observatoren getraind en geschikt zijn en het onderzoeksdesign is opgesteld, kan aan het eigenlijke onderzoek worden begonnen. Als laatste als de data verkregen zijn, moeten er uitvoerige controles worden uitgevoerd. Er moet gecontroleerd worden op:

De indeling, dus door bij verschillende soorten mensen op echtheid van verschillen te checken.
Omgevingsvariabelen, of ze op de geobserveerden zijn overgekomen zoals bedoeld was.
Design, door bijvoorbeeld achteraf vragen te stellen om de uitwerking van de onafhankelijke variabele te checken.
Verband, was het echt zo aanwezig?
Het effect van de observatie, dus of de personen beseften dat ze geobserveerd werden, want mensen vertonen anders gedrag als ze dit weten.
Eventueel een uitgebreide controle op storende variabelen.

Sommige controles moeten ook tussendoor gevoerd worden en dus worden ze hier vooraf al behandeld. Het gaat om belangrijke begrippen bij wetenschappelijk onderzoek, namelijk betrouwbaarheid en validiteit.

Allereerst is er het algemeen gegevens analyseren. Dit gebeurt vooral na het onderzoek, dus als de data verzameld zijn. Het is belangrijk om een eenvoudige en begrijpbare methode hiervoor te kiezen en als er twijfels bestaan over de juistheid van de gegevens, wordt het al helemaal niet aangeraden om een ingewikkelde methode te kiezen. Het achteraf controleren van data gebeurt altijd met de onderzoeksvraag in het achterhoofd, want daar moeten de verkregen gegevens een antwoord op zijn. Vertrouwen op tests en vragenlijsten is wel naïef, maar toch noodzakelijk.

Dit vertrouwen is niet blind, want er moeten altijd globale controles gehouden worden, zoals voor vragenlijsten de alfa-coëfficiënt dat doet. Observatiedata moeten altijd gecontroleerd worden, dus moet men alert blijven, maar dit analyseren kost ook veel tijd. De eerste basisvereisten zijn dat de data goed geordend moeten zijn en het meetinstrument, de observator, moet getraind, gecheckt en in de gaten gehouden worden. De training is eigenlijk een soort pilotonderzoek en geeft aan of de observator goed genoeg is. Tijdens de training moet op gezette tijden de betrouwbaarheid berekend worden om de aanvangskwaliteit van de observatoren te bepalen. Aan het eind van de training moet zowel de intra- als interobservatorbetrouwbaarheid vermeld worden.

De kwaliteit van de data moet stabiel zijn om conclusies te kunnen trekken. Om deze stabiliteit te bereiken, moet nog steeds gecontroleerd worden om eventuele observer drift of observatorbias te signaleren. Dus: betrouwbaarheid of toevallige fouten controleren tijdens training en tijdens en na het dataverzamelen. De uitkomsten moeten in het onderzoeksverslag vermeld worden. En: bepaling van de validiteit het liefst voor aanvang van het onderzoek, maar omdat dit eigenlijk het vergelijken van data inhoudt, gebeurt het meestal noodgedwongen na de voorfase van het onderzoek als de data bekend zijn. De grens voor goede data ligt op .80 bij Pearson-r en .60 bij kappa, maar dit is een indicatie en dus niet bindend. Het ligt een beetje aan het onderzoek wat acceptabel is. Om nog meer getalsmatige indicaties te geven: bij validiteit moet de consistentie van observaties met betrekking op het construct minimaal .30 zijn, een hoge convergentie van .50 en een lage divergentie van -.40.

Een onderzoek is valide als gemeten is wat men wilde meten en niet iets anders. Bij het meten van de duur van iets of hoe vaak dit voorkomt (frequentie) gaat het om simpel tellen of stopwatch indrukken en lukt het doorgaans wel om te meten wat de bedoeling was. Als uit het gedrag een construct afgeleid moet worden is dit al moeilijker. Dan wil men dus naar aanleiding van de werkelijke waarde een uitspraak doen over een construct, maar deze is helaas nooit bekend. Theoretisch is validiteit het verband tussen de true score en het construct, maar in de praktijk wordt de geldigheid afgelezen uit het verband tussen het construct en de observatiedata, dus eigenlijk de interpretatie. Bij rating is de validiteit een groot vraagstuk en ook nog eens moeilijk te achterhalen. Daarom zijn er de base rate en de range om te helpen bij het bepalen van de validiteit. Zoals bekend weet men nooit de true score of werkelijke waarde, maar ook de waarde van het construct is niet duidelijk en dus moet er een criterium gemaakt worden. Het criterium bevat wat er wordt verstaan onder de werkelijke waarde van het construct.

Om te kunnen meten wat men wil meten, moet men weten wat het is dat men wil meten. Er moet dus een duidelijk doel zijn. Bij vergelijkend of toetsend onderzoek meet men vaak het verschil tussen groepen personen of condities, dus wat je wilt meten is een bepaald verschil tussen bepaalde variabelen. Bij beschrijvend onderzoek is het beter om eerst rond te kijken en literatuur te bestuderen en dan een aspect uit te kiezen om te meten. Wat je wilt meten, moet sowieso relevant zijn, dus van belang en niet reeds bekend.

Er moet dus goed gereduceerd worden om het te meten onderwerp bruikbaar en toepasselijk te maken. Een meting is valide als de verschillende operationalisaties van het construct samenhangen en er sprake is van convergente en divergente validiteit.

Convergente validiteit is als het resultaat overeenstemt met andere metingen over hetzelfde construct, maar die met andere meetmethoden zijn verricht. Divergente validiteit is als het resultaat verschilt van metingen met een ander, aanverwant construct. Bij de meting kan het zo zijn dat het gedrag door een ander construct wordt veroorzaakt dan het bedoelde. Om zeker te weten dat het bedoelde construct gemeten is, moeten de andere mogelijkheden worden aangetoond als niet juist voor de verklaring. Als er een betere samenhang van de metingen te vinden is met het oorspronkelijke, bedoelde construct, dan is er sprake van convergente validiteit. Als er een betere samenhang blijkt te zijn met een ander construct, dan heb je te maken met divergente validiteit.

Validiteit kan gezien worden als samenhang. Er zijn dan drie mogelijkheden:

Divergente validiteit, dus het verschil met een ander verwant construct. Dit kunnen bijna dezelfde zijn, of verder van het oorspronkelijke af liggen, of zelfs niet psychologisch, zoals sociaal-economische status. Soms is de samenhang met een ander construct rechtlijnig en kan het met correlatieberekening bepaald worden. Soms is het verband ingewikkelder en is er sprake van een zogenaamd kwadratisch of U-vormig verband. Dan is het verstandig om de data goed te bestuderen om deze samenhang te ontdekken.

Convergente validiteit. De samenhang die hier te ontdekken valt, is de mate waarin de verschillende categorieën samenhangen met het te meten construct. Het antwoord op deze vraag kan gevonden worden door het opstellen van een criterium en een meting te houden van hetzelfde construct, maar op een andere manier. Veel gebruikte methoden zijn: Vragenlijsten of vergelijken met nauwkeurige technieken zoals slowmotion opnamen of beoordeling door bekenden van de proefpersoon. Bij beoordeling door groepsgenoten, heet dit peer rating. Door de persoon zelf is het self rating en door bijvoorbeeld artsen of leerkrachten, wordt expert rating genoemd. Ook nu is de correlatie berekenen weer nuttig om het verband te bepalen tussen het criterium en de meting.

De samenhang tussen gedragsvariabelen. Stel, je neemt een aantal gedragingen die mensen doen als ze verliefd zijn en gebruikt dit om verliefdheid te meten. Om te zien of deze maten even goed zijn, moet de onderlinge samenhang geanalyseerd worden. Pearson-r kan hierbij een handig hulpmiddel zijn. Om er achter te komen in hoeverre elke maat verliefdheid meet, moet je de correlatie van een maat met de som van alle maten berekenen. Dit wordt itemtotaal correlatie genoemd.

Om al deze informatie overzichtelijk bij elkaar te zetten, is de Multi-trait Multi-method Matrix ofwel MMM, uitgevonden. En wel door de psychometrie. Met behulp van een datamatrix is het mogelijk om een correlatietabel te maken met eerst de variabelen voor samenhang, dan die voor convergentie en voor divergente variabelen.

Tot nu toe wordt er steeds gesproken van validiteit als een begrip, maar er zijn meer soorten validiteit, te weten:

Predictieve validiteit: voorspelt de uitkomst het toekomstige gedrag van de proefpersoon
Concurrente validiteit: is het huidige gedrag of dat van vroeger uit de uitkomst af te lezen?
Inhoudsvaliditeit: dekt de inhoud van de meting het gehele construct
Constructvaliditeit: hoe goed meten de data het construct? Als dit hoog is, kunnen de vorige soorten van validiteit nog wel laag zijn. Dus garantie van een hoge constructvaliditeit zegt niets over hoogte van andere validiteiten.

De betrouwbaarheidsbepaling moet plaatsvinden tijdens de training van observatoren, steekproefsgewijs tijdens het observeren zelf en achteraf bij het controleren van de data. Het begrip betrouwbaarheid heeft betrekking op de herhaalbaarheid van het onderzoek. Dus als hetzelfde onderzoek met dezelfde methode over wordt gedaan, moet de uitkomst hetzelfde zijn. Het is alleen mogelijk dat men er consistent naast zit, dat er dus niet gemeten wordt wat men denkt te meten. De betrouwbaarheid slaat alleen op de resultaten, maar het zijn de meetmethoden zoals observatoren die de data leveren voor het resultaat. In theorie is betrouwbaarheid de overeenkomst tussen verkregen score en werkelijke score. De werkelijke of true score wordt bereikt met het ideale meten, wat dus niet mogelijk is. Deze overeenkomst valt eigenlijk niet te bepalen, daarom is dit in theorie de definitie van betrouwbaarheid. Ook de overeenkomst tussen verschillende observaties geven een indicatie van de betrouwbaarheid. Validiteit is de overeenstemming tussen true score en het construct. Bepalen van de betrouwbaarheid kan eventueel ook door uit een tabel de laagste score uit de drukken als percentage van de hoogste score. Door vergelijken van resultaten van verschillende objecten of gebeurtenissen en vergelijken van frequentiegegevens met ratinggegevens kan geen betrouwbaarheid verkregen worden.

Als je een betrouwbaarheidscontrole wilt doen op je onderzoek, mogen de observatoren wel verwisseld worden, maar ze moeten wel afgestemd en getraind worden op de methode die je gebruikt. Dan kunnen er wel toevallige fouten optreden, maar geen systematische die de betrouwbaarheid aantasten. De uitkomsten van beide onderzoeken (het eigenlijke en het onderzoek om de betrouwbaarheid te bepalen) moeten vergeleken worden op intra- en interobservatorbetrouwbaarheid, dus binnen een observator en tussen verschillende observatoren. De betrouwbaarheid zegt iets over de mate van error of ruis. Is er een lage betrouwbaarheid, dan is de validiteit of geldigheid waarschijnlijk ook laag. Bij veel fouten, is er ook een grote spreiding en zijn er ook systematische fouten in plaats van toevallige.

En de uitspraak die gedaan kan worden over het gemiddelde is minder zeker bij wijd verspreide scores.

Volgens de Spearman-Brown formule neemt de betrouwbaarheid toe naarmate het aantal getrainde observatoren toeneemt, omdat het onderlinge gemiddelde hoger ligt dan het totale gemiddelde. Bij training wordt op een gegeven moment een stabiel niveau bereikt, het plafond, wat de betrouwbaarheid aan geeft. Er moet ook gewoon gecontroleerd worden tijdens de observaties, vanwege observer drift. Dit is een daling of stijging van de kwaliteit van de observator door allerlei factoren.

De controle tijdens de training moet zowel inter, dus tussen verschillende observatoren, als intra, dus binnen een observator. Intra-observatiebetrouwbaarheid wordt beïnvloed door stemming of ervaring. Het bereiken van betrouwbaarheid tussen observatoren geeft grotere problemen, hier heeft niet alleen de stemming of ervaring invloed, maar is ook de subjectiviteit van invloed (de observator bias). Intrabetrouwbaarheid is een voorwaarde voor interbetrouwbaarheid. De laatste wordt beter als er minder subjectiviteit is tussen observatoren en dus hoge intersubjectiviteit, maar dit is nog geen garantie voor validiteit.

De stabiliteit oftewel de betrouwbaarheid kan in getallen gemeten worden op de volgende manieren:

Overeenstemmingsmaten. Deze gaan uit van een kwalitatieve score en koppeling aan een tijdschaal met behulp van een event recorder of interval sampling. De overeenstemmingsmatrix heet bivariate frequentietabel. Het aantal elementen is gelijk aan de som van het aantal scores binnen een klasse en overeenstemmingsmaten maken geen gebruik van losse elementen, maar van gedragsklassen. Het voordeel is dat dan ook gemeten kan worden hoe vaak iets niet voorkomt. Betrouwbaarheid meten door overeenstemmingsmaten werkt goed bij een uitputtend systeem. Indexen om overeenstemmingsmaat te berekenen zijn:

Cohens kappa K : Varieert van 1.0 (sterk positief verband) tot –1.0 (sterk negatief verband tot 0 (geen verband) en alles wat daar tussen zit. Po – Pe / 1 – Pe.

Proportieovereenstemming Po: berekenen door het aantal overeenstemmende gevallen te delen door het totaal aantal gevallen, maal honderd.

Correlatiematen. Gaat uit van een kwantitatieve score uitgezet over een lengte zoals de tijd of in meter en een datamatrix met (totaal) score van elke persoon en elke variabele. Bij twee observatoren komen er dus twee rijen per variabele. Hoe meer samenhang, hoe hoger de betrouwbaarheid. De samenhang wordt uitgedrukt in Pearson-r die de rangorde van scores vergelijkt tussen de observatoren. De waarde is alleen negatief als er een vergissing is gemaakt. De minimaal acceptabele waarde is .8, maar dit is nooit bindend en moet altijd in het verband gezien worden.

De absolute grootte van de getallen maakt niet uit, de verhoudingen wel. Daarom moet om inzicht te krijgen in de betrouwbaarheid, naast Pearson-r, ook het gemiddelde uitgerekend worden. Deze maten gelden alleen voor twee personen en als er meer zijn, moeten de onderlinge verhoudingen berekend en gemiddeld worden. Een nadeel van werken met correlatiematen is dat met heel andere scores toch dezelfde uitkomst kan verschijnen, dit is bij overeenstemmingsmaten niet het geval.

Systematisch observeren gebeurt voor een groot deel door kwalitatieve gegevens uit te drukken als kwantitatief.

Dit lijkt soms duidelijker dan het in werkelijkheid is en er is geen ruimte meer voor intuïtieve zaken. Het voordeel is dat er wel precieze controles mogelijk zijn. Het controleren van gegevens gaat in een aantal stappen:

Globale verkenning van de gegevens. Eerst moet alles overzichtelijk zijn, dus moeten de data worden verzameld, bewaard en dan bewerkt door een datamatrix. De dimensies op de matrix zijn variabelen, de observatoren en de proefpersonen die door het statistische verwerkingsprogramma SPSS liefkozend cases worden genoemd. Het is nu dus een driedimensionale matrix, maar bij een hoge betrouwbaarheid tussen de observatoren (zie Spearman- Brown formule) is het beter om er een twee dimensionale matrix van te maken. Soms kunnen ook de variabelen gecombineerd worden tot een hoge samenhang bij de validiteitsbepaling. Voor de overzichtelijkheid en om goed te kunnen vergelijken kunnen data getransformeerd of gestandaardiseerd worden. Standaardiseren kan bijvoorbeeld door alles hetzelfde tijdsbestek te maken.

Simpele grafieken. Nu de data geordend zijn, moeten ze worden verkend, door bijvoorbeeld gemiddelden uit te rekenen en een frequentieverdeling in een grafiek te zetten. Hier begint het beantwoorden van de vraagstelling. Het is bij deze analyses verstandig om veel figuren en grafieken te maken om de boel te verduidelijken. Naast de frequentietabel kan ook nog een plot of scattergram gemaakt worden. De waarden van de eerste variabele staan dan op de x-as en de waarden van een andere op de y-as en uit de losse punten valt de correlatiecoëfficiënt af te leiden. Meestal gaat men ervan uit dat er een rechtlijnig oftewel lineair verband bestaat tussen de variabelen, terwijl dit vaak ook kromlijnig kan zijn.

Gedetailleerd bewerken van de data kan per groep of blokvariabelen of conditie. Dit is de verkennende analyse. Het maken van een factorieel design kan nuttig zijn, want bij de optie wel of niet wordt het hoofdeffect duidelijk, als de onafhankelijke variabele duidelijk invloed heeft op de afhankelijke. Het interactie-effect geeft de richting van het verschil in effect aan onder onderzochte groepen, bijvoorbeeld man-vrouw, als het totaal van beiden gelijk is.

Vergelijkend analyseren maakt gebruik van lijngrafieken of histogrammen. Deze moeten aangeven of het gevonden verschil relevant of de moeite waard is:

Significantie, oftewel: hoe groot is de kans dat het verband of verschil opnieuw gevonden wordt met andere, vergelijkbare proefpersonen? Hier is de grootte van het effect van invloed en de grootte van de onderzochte groep en de spreiding of variatie binnen de groepen. Een grote spreiding houdt weinig significantie in. Als het meet niveau te laag is, dus nominaal of ordinaal, of de spreiding heeft geen normaalverdeling, dan moet parametervrij getoetst worden.
Effectgrootte, oftewel: is het effect van de onafhankelijke variabele groot genoeg om echt verschil te maken op de afhankelijke variabele? Dit heeft vaak te maken met de schaal en het bereik, de range, maar dat is naar inzicht in te delen.

Een indicatie voor de effectgrootte wordt vaak aangeleverd door de correlatie of het gevonden verschil tussen gemiddelde scores vergelijken met hun standaarddeviatie. Dit wordt berekend door het gemiddelde van meting een (M1) minus het gemiddelde van meting twee (M2) te delen door de standaarddeviatie (SD).

De sequentiële analyse zoekt naar gedragspatronen. Dit zijn volgorde-effecten van gedragselementen die vaak voorkomen. De voorwaarde voor zo een analyse is dat het categorieënsysteem uitputtend en uitsluitend is, het liefst op moleculair niveau en er geen gebruik is gemaakt van interval of time sampling (want dat is te beperkt om uitspraken over gedragspatronen te kunnen doen). De overgangsmatrix die gemaakt wordt bij sequentieel analyseren lijkt veel op de overeenstemmingsmatrix. De centrale vraag bij de overgangsmatrix is: hoe vaak wordt een gedraging door een bepaald ander gevolgd? Het gegeven gedragselement is Lag 0 (vertraging), het gedragselement dat daar direct op volgt is Lag1 en het daar opvolgende Lag 2, enzovoorts. Om de patronen te vinden, moeten gedragssequenties gekozen worden met de grootste waarschijnlijkheid en die moet getest worden op kans, zodat het zeker is dat het geen toeval is.

DEEL 3: BEGINFASE VAN HET ONDERZOEK

Vanaf nu houden we de volgorde aan van methodische observatie. Wat moet je doen en in welke volgorde om je eigen onderzoek te houden. De eerste stap is om te komen tot een goede vraagstelling. Hiervoor moet je eerst pilotonderzoek gaan doen om tot een definitieve vraagstelling te komen. Er wordt dan gesproken van een onderzoeksvraag. Het is heel belangrijk dat de uiteindelijke onderzoeksvraag pas gedefinieerd wordt na voldoende pilotonderzoek. Pilotonderzoek is een simpel en beschrijvend vooronderzoek. Meestal wordt een vraag geformuleerd vanuit eigen intuïtie en referentiekader, in plaats van door hypothese naar aanleiding van een theorie, en komt daarna het vooronderzoek.

Om tot een wetenschappelijke vraagstelling te komen, moeten de volgende stappen doorlopen worden:

Bepalen wat er gemeten moet worden. Dus gedrag of gedragscategorie kiezen en concreet definiëren van moeilijk meetbare innerlijke staten (constructs).
Beslissen wie er wordt of worden gemeten. Het moet mogelijk zijn om te generaliseren (conclusie doortrekken naar het algemene) naar een bepaalde groep en daarom moet nagedacht worden over de steekproeftrekking of sampling.
Duidelijk maken waar er gemeten wordt, want de situatie is een bron van onafhankelijke variabelen. Er moet een soort situatie gekozen worden, want er kan meestal niet gegeneraliseerd worden naar alle andere situaties.
Bepalen hoe er gemeten gaat worden, dus met hoeveel observatoren en hoe geregistreerd wordt en welke hulpmiddelen nodig zijn voor onthouden en zorgen voor eventuele benodigde apparatuur.

Observeren gebeurt vaak in een natuurlijke omgeving, waar geen of weinig controle uitgeoefend kan worden op variabelen. Een experiment (ofwel: experimenteel onderzoek) maakt gebruik van het manipuleren van onafhankelijke variabelen om de invloed hiervan op afhankelijke variabelen te meten. Andere onafhankelijke variabelen die niet gemanipuleerd worden, maar wel invloed kunnen hebben, worden zoveel mogelijk constant gehouden. Blokvariabelen zoals geslacht of opleidingsniveau kunnen ook onafhankelijke variabelen zijn. Voor onafhankelijke variabelen moet je een manipulatiecheck uitvoeren door de operationalisaties (concreet maken van bijvoorbeeld een construct) te controleren op correctheid. Voor afhankelijke variabelen moet de validiteit bepaald worden. Een voorbeeld van een experimenteel onderzoek is het variëren van beloningen (onafhankelijke variabele) en meten wat het effect hiervan is op de prestaties (afhankelijke variabele). De vraag is dus of mensen beter presteren als de beloning groter is. Omdat er variabelen gemanipuleerd moeten worden, is experimenteel onderzoek niet zo geschikt voor observatie.

Beschrijvend onderzoek komt meer in aanmerking. Men houdt zich dan bezig met de mate waarin of hoe lang of hoe vaak iemand een bepaald gedrag vertoont.

Als je de hieruit verkregen gegevens gaat vergelijken, is er sprake van vergelijkend onderzoek. De vraag is globaal en verkennend. Er kunnen dan uitspraken gedaan worden over:

Gedragspatronen, structuur bestuderen door sequentiële analyse, die volgorde van delen van gedrag bekijken.
Verschillen tussen constructs, die kunnen achterhaald worden door bijvoorbeeld gemiddelden te berekenen.
Samenhangen of verbanden tussen constructs, meestal door correlatieberekening of anders experiment.

Bij observatie kun je je ook afvragen of er een verband is tussen bepaalde gedragingen. Dan begeef je je op het terrein van het correlationeel onderzoek. De vraag gaat dan over of er wel of niet een verband is, maar er kunnen geen uitspraken gedaan worden over causaliteit. Welk gedrag wat veroorzaakt is dus niet bekend, wel dat ze vaak samen voorkomen. Bij een experiment is het wel mogelijk om uitspraken te doen over oorzaak en gevolg.

Er werd net al gesproken over constructs, een zeer essentieel begrip in de psychologie en bij observatie. Een construct is een innerlijke toestand van achterliggende psychologische eigenschappen die niet direct meetbaar zijn. Voorbeelden zijn intelligentie, jaloezie, dorst of assertiviteit. Bij dieren en jonge kinderen is gedrag een reflectatie van hun innerlijke staat, bij volwassenen niet en is het meer abstract. Constructs kunnen zowel onafhankelijke als afhankelijke variabelen zijn, zijn nooit direct te manipuleren of te meten. Daarom moet een construct altijd concreet geformuleerd worden. Je stelt bijvoorbeeld de vraag: wat valt nou precies onder jaloezie? Dit concreet maken heet operationaliseren en is heel belangrijk om wetenschappelijk te onderzoeken en conclusies of voorspellingen te maken.

Operationaliseren kun je ook bij het bepalen hoe en wat gemeten gaat worden. De meetprocedure is ook van groot belang voor wetenschappelijk onderzoek. Deze verwijst naar:

De te meten eigenschap. Dit is een betekenisvol kenmerk van een object. De kennis van een eigenschap stelt mensen in staat om doelgerichter te handelen en te voorspellen. Bij bijvoorbeeld de attributietheorie (het toeschrijven van eigenschappen aan mensen door interne of externe factoren) staat de betekenis van eigenschappen centraal. Er moet gestreefd worden naar het vermijden van attributiefouten bij het onderzoek door te operationaliseren. De eigenschap moet gedefinieerd worden om op nauwkeurig omschreven manier te meten. Voorbeelden van wetenschappelijk gedefinieerde constructs zijn cognitieve dissonantie (ongelijkheid tussen gedragingen onderling of tussen gedrag en attitude), het lange termijn geheugen, intelligentie en neuroticisme.

Het object zelf. Dit kan zijn een mens, een groep of relaties tussen mensen of groepen. Het is niet altijd duidelijk wat precies gemeten wordt en er speelt ook het attributieprobleem dat de omgeving ook een rol kan spelen of het vaag is bij welk object de eigenschap nou eigenlijk hoort.

Een hypothese is een geoperationaliseerde vraagstelling, een precies geformuleerde verwachting of voorspelling. Naar aanleiding van een hypothese kunnen uitspraken gedaan worden over het te verwachten verloop.

Met een theorie kan dit niet, dit is in de vorm van een stelling. De theorie kan geformuleerd worden na afloop van het onderzoek, maar men kan ook naar aanleiding van een bestaande theorie een onderzoek houden. Een theorie kan onderscheiden worden op de volgende punten:

Het ontstaan ervan. In welk wetenschapsgebied is de theorie ontstaan. Dit kan zowel binnen als buiten de psychologie zijn.
Recentelijkheid. Een oude theorie kan verbeterd worden of een nieuwe verzonnen. Bedenk wel dat de nieuwe van nu de oude zijn van over een paar jaar.
Wie de theorie bedacht heeft. Een theorie kan zelf bedacht zijn of reeds gepubliceerd en dan is hij door anderen bedacht. Als een ander de bedenker is, is de theorie meestal beter onderbouwd. Het zelf bedenken ervan heeft meer empirische ondersteuning nodig, maar heeft weer als voordeel dat het een ideale onderzoeksbasis is.
Of het kwalitatief, dan wel kwantitatief is. Bij een kwalitatieve theorie is meer subjectiviteit aanwezig, want er wordt meer aan de interpretatie over gelaten en er kunnen ook geen getalsmatige voorspellingen gedaan worden. Cijfers kunnen bij een kwantitatieve theorie wel verwerkt worden in bijvoorbeeld curves of leuke tabelletjes. Er kan echter schijnobjectiviteit optreden. Een voorbeeld van een kwantitatieve theorie zijn de leertheorieën.
De omvang. Het menselijk functioneren kan geheel beschreven worden, zoals bij de evolutietheorie, of beperkt als het een bepaald aspect betreft, zoals bij de cognitieve dissonantietheorie.

Een model is een simpele vorm van een theorie. Het belang voor de wetenschap hiervan is dat een model cumulatief is, het breidt zich uit en wordt steeds gedetailleerder. Het kenmerk van een model is dat het werkt via een cyclisch proces met een model, empirische toetsing en een betere theorie door de resultaten. Als begonnen wordt bij de theorie, is er sprake van deductie. Inductie bestaat uit eerst opmerken, dan testen, dan model of theorie vormen.

DEEL 4: HET GEDRAG INDELEN

De volgende stap is het bepalen van wat er precies gemeten gaat worden en hoe dit overzichtelijk ingedeeld kan worden. Het categorieënsysteem wordt behandeld en veel gemaakte fouten worden besproken. Er zijn verschillende soorten gedrag, maar hier houden we het even bij communicatief gedrag;

Verbaal communicatief gedrag. Dit vindt plaats door middel van taal. Het observeren gebeurt door functies van woorden en zinnen, bijvoorbeeld de categorieën ‘vragen’ en ‘antwoorden’. Een bekend categorieënsysteem is het IPA-systeem van Bles en komt uit de sociologie. Ook bestaan er systemen om professionele verbale communicatoren te observeren. Inhoudsanalyse is een systeem dat zich voornamelijk bezighoudt met de betekenis van woorden. Agressie wordt bepaald door het aantal agressieve woorden te tellen. Het gaat dan vaak niet om observatie, maar meer naar aanleiding van schriftelijk materiaal.

Non-verbaal communicatief gedrag. Gaat niet over taal, maar expressies, dus ook geen gebarentaal, want dat valt onder taal. Het leuke is, dat dit gedrag zowel opzettelijk als onwillekeurig kan plaatsvinden. De kanalen via welke het gedrag tot uiting komt, zijn: aanraken, ruimtelijkheid (afstand tot anderen), het uiterlijk in het algemeen, houding (bijvoorbeeld armen over elkaar duidt op afstandelijkheid), visueel gedrag, gezichtsuitdrukkingen, vocaal (bijvoorbeeld de hoogte van iemands stem) en gebaren en lichaamsbewegingen. Deze kanalen kunnen met elkaar overeenstemmen, maar ook elkaar tegenspreken. De indruk die men op anderen maakt, wordt er door een groot deel door bepaald, iets wat ook interessant is voor theorieën over impressiemanagement. Doordat het universeel is, lijkt non-verbaal gedrag deels aangeboren. In de binnenlanden van Afrika trekken mensen hetzelfde hoofd als ze blij zijn, als hier.

Om te concluderen moet informatie gereduceerd worden. Dit kan met behulp van de volgende data:

Intensiteit is kwalificatie van een modifier of kanttekening bij gedrag van een bepaalde duur of bepaalde frequentie. Het gedrag kan bijvoorbeeld aangegeven worden als zacht, hard of normaal. Ook rating kan gebruikt worden om de intensiteit aan te geven.
Duur houdt in hoe lang iets bezig is in een bepaalde tijd. Wordt meestal aangegeven per seconde. Hulpmiddel is een stopwatch, maar dan is men beperkt tot een soort gedrag en kan alleen de cumulatieve duur aangegeven worden als het gedrag met pauzes optreedt. De gemiddelde boutlengte kan wel berekend worden door de cumulatieve duur te delen door de frequentie. De tijdsduur voor het te vertonen gedrag is de latentietijd. Als het zeer kort duurt zijn er soms technisch hulpmiddelen nodig om te meten.

Frequentie is tellen hoe vaak iets gebeurt in een bepaalde periode. De rate index bevat zowel de periode als de frequentie, bijvoorbeeld: persoon X stak drie keer per uur een sigaret op. De frequentie kan aangegeven worden door simpel te turven of met codes, waarbij dan ook nog de volgorde bekend is. Het nadeel van deze dataverzamelingsmethode is het event state probleem. Dit betekent dat hetzelfde gedrag soms tien minuten voor komt en soms maar vijf seconden en dat beide keren even zwaar meegeteld worden.
Richting heeft geen bepaalde meeteenheid en houdt zich ook bezig met een modifier, bijvoorbeeld: tegen wie spreekt de geobserveerde. Dat kan aangegeven worden met tijd, namelijk hoe lang spreekt de geobserveerde tegen iedereen in de groep.

Soms is het moeilijk om een scheiding te maken van eenheden of patronen, zoals bij een state. Een state is een langdurige gedragstoestand, zoals bijvoorbeeld winkelgedrag. Er wordt dan een onnatuurlijke eenheid gevormd door een steekproef, zoals een tijdsinterval. Men maakt dan gebruik van time sampling of interval sampling. Frequentie en duur komen hierbij niet aan de orde, maar er kan wel een globaal beeld gevormd worden. Interval sampling kan op twee manieren, namelijk door een puntscore (bijvoorbeeld elke tien seconden op een punt noteren wat er gebeurt) of een samenvattende score (tien seconde lang kijken wat er gebeurt en dit samenvatten met een waarde). Een toestand of state heeft een lange duur en is minder geschikt voor frequentiedata. De begin- en eindtijd zijn de meest zinnige informatie.

Eigenschappen zijn makkelijker toe te schrijven aan de in het oog springende factor, de persoon, dan aan gedrag zelf. Bij systematisch observeren moet men concreet zijn. Om goed te meten moet gedrag eerst worden opgedeeld in kleine stukjes. Dit zijn gedragselementen of events. Natuurlijke gedragselementen zijn soms moeilijk te scheiden, vanwege overloop in elkaar. Bij bijvoorbeeld een conversatie is dit wel goed duidelijk, die is op te delen in beurt van spreken van een bepaalde persoon. Kenmerk van een natuurlijk element is gemeenschappelijkheid en patroonvorming die herkenbaar is. Als deze bijna altijd in een vaste volgorde samen verschijnen, is dit een gedragspatroon. Sequentieel analyseren van geobserveerde gedragingen kan zo'n patroon aangeven. Na het onderscheiden van events, vindt event sampling plaats. De stukjes krijgen een waarde om makkelijker te kunnen meten. Events die bij elkaar horen vormen samen een categorie. De breedte van de categorie bepaalt de mate van verschil; hoe kleiner de breedte, hoe kleiner de events, hoe beter onderscheid. Er moet, naast het ethogram, ook een categorieënsysteem opgesteld worden. Dit bevat alle categorieën met hun codes en een omschrijving. Een gebeurtenis of event heeft een korte duur en de frequentie is goed te tellen.

Grote gedragseenheden met natuurlijke grenzen heten episodes.

In de ethologie, achterhalen van diergedrag in de natuurlijke omgeving, is veel gebruik gemaakt van observatie.

Het algemene voordeel bij ethologie is dat er geen dubbele subjectiviteit hebt van onderzoeker en participant, zoals dat bij interviews wel kan zijn. Er moet nog wel geïnterpreteerd worden, maar dit is ook al minder dan bij observeren van mensen. De ethologen kwamen met vaste combinaties en patronen van gedrag, de Fixed Action Patterns of kortweg FAP’s. Deze samenhangen vormen de gedragspatronen. En zo kwam men tot het ethogram. Dit is een soort ordeningsschema van gedrag met gedragsklassen en gedragselementen. Er zijn niet-hiërarchische ethogrammen, maar hier wordt verder alleen ingegaan op hiërarchische, zoals bij het voortplantingsgedrag van de stekelbaarsjes. Het hiërarchisch ethogram loopt van links de brede categorieën, naar rechts, waar de smalle elementen zich bevinden. Hoe verder in het ethogram naar links, hoe meer men zich op molair niveau begeeft en hoe verder het doorloopt naar rechts, hoe kleiner en specifiekere elementen er staan. Dit is het moleculaire niveau. Het molaire deel is snel en soepel, maar subjectief. Er moet tijdens het observeren geïnterpreteerd worden en het is minder meetbaar door de noodzaak van ratings en constructs. Het algemene voordeel van het maken van een ethogram is dat er systeem en structuur in je indeling zit en dat fouten makkelijk gesignaleerd kunnen worden.

Bij het ethogram zijn nog twee punten van belang:

Uitsluitendheid. Dit bereik je als niet een element in twee categorieën zit. Elk element kan dus in slechts een categorie ondergebracht worden.
Uitputtendheid. Als alles wat mogelijk kan gebeuren bij het gedrag, ook wordt ondergebracht in het ethogram, mag het uitputtend genoemd worden. Er blijft dus geen een element over, dat niet verwerkt kan worden.

Van een ethogram naar het maken van een categorieënsysteem gaat als volgt: onderbrengen van gedrag in categorieën die bepaald worden door de onderzoeksvraag om de toestand van constructs te achterhalen. Het categorieën systeem of codeersysteem is direct afgeleid van het ethogram en geeft alle informatie die de vraagstelling vereist. Het bevat gedragscategorieën uit een niveau uit het ethogram, meestal het moleculaire niveau. De categorieën vormen een gedragsklasse als ze uitputtend zijn. Elementen binnen een klasse kunnen niet tegelijk voorkomen. Bij elk element moet een code bedacht worden om het gemakkelijker te kunnen noteren of herkennen. Dan moeten de categorieën operationeel gedefinieerd worden met eventuele voorbeelden. Zo wordt eventuele overlap toch gescheiden en bereikt men uitsluitendheid en is er minder sprake van verwarring en observatiefouten. Daarom is het het beste om een niveau uit het ethogram te nemen en het systeem aan te passen aan het event of state vanuit de onderzoeksvraag.

Enkele voorbeelden van categorieënsystemen:

Interaction Process Analysis (IPA) van Bales gaat over discussie in groepen en komt uit de sociale psychologie. Het systeem is ingedeeld in taakgericht en sociaal-emotioneel gedrag, vooral verbaal, maar ook het non-verbale aspect telt en beetje mee.

Het is moeilijk om de grootte van het gedragselement te bepalen, maar het is wel een erg gestructureerd systeem. Er is veel betrouwbaarheid door de intersubjectiviteit en training. De meest voorkomende categorieën staan in het midden, dus bij twijfel moet de observator de binnenste kiezen. Bales werkt met event sampling en zijn systeem is uitsluitend en uitputtend. De event recorder is nodig om een eventuele koppeling aan een tijdschaal te achterhalen.

Een redelijk uitputtend systeem om het effect van verkeerslessen op school te testen. Er werd onderscheid gemaakt tussen oversteken in rustige straten of straten met geparkeerde auto's. En de kinderen werden beoordeeld op kijken en bewegen. Het systeem is makkelijk ingedeeld met vooral ja/nee vragen en een paar rating vragen en kleine gedragingen, zodat er weinig geïnterpreteerd hoeft te worden.

Diagnose stellen bij kinderen met ADHD door zeven hoofdcategorieën en een aantal subcategorieën met omschrijvingen. De eenheden verschillen in duur (sommige zijn events, andere states) en grootte. De hoofdcategorieën zijn uitputtend en dus is er sprake van gedragsklassen. Er is wel herhaling nodig vanwege het aantal categorieën en voor de betrouwbaarheidsbepaling. De observatoren worden getraind met event recorder en bespreken van ongelijkheden om de intersubjectiviteit te verhogen. Event recorder werkt door knop in te drukken voor de begin- en eindtijd van elke gedraging en de computer die dit vastlegt, bewerkt en berekent.

Systeem om de vaardigheden vast te stellen en te trainen van professionele interviewers bestaat uit acht categorieën die gemaakt zijn naar aanleiding van theorieën over professionele gespreksvoering. Het is redelijk uitputtend. Vooral verbaal gedrag wordt bekeken, maar ook een beetje non-verbaal gedrag. De eenheid van scoren is het hele gedrag tijdens een beurt van spreken, een molaire eenheid, omdat het doorgaans een onderwerp bevat. Observeren is hierbij redelijk simpel met een ruwe tijdschaal.

Rating is observeren met gelijktijdig interpreteren en oordelen, bijvoorbeeld op een tienpuntsschaal een cijfer geven. Dit valt in principe niet onder systematisch observeren, wat zich bezig houdt met wat er gebeurt. Raten richt zich op hoe iets gebeurt en velt een oordeel over een oordeel en doet uitspraken van het ‘hoe’ over het ‘wat’. Meestal wordt de intensiteit van molaire constructs bepaald. Rating is doorgaans molair, maar soms zijn er grote gedragseenheden met natuurlijke grens. Maar vaak is dit ook weer vervangbaar door een meting. Rating stelt de secundaire kenmerkende eigenschap vast, de modifier.

Een voorbeeld van een modifier is als er gekeken wordt naar tegen wie de gedragingen gericht zijn.

Als je niet de werkelijke waarde uit je meting hebt verkregen, is er sprake van een fout. Toevallige fouten zijn onvoorspelbaar en het gemiddelde van de metingen ligt dicht bij de waarheid. Dit is vergelijkbaar met de error component uit de psychometrie.

Het bepalen van de betrouwbaarheid, de mate waarin de geobserveerde scores van de werkelijke af liggen, controleert op toevallige fouten.

Systematische fouten ontstaan door een constante afwijking, de zogenaamde bias. Subjectiviteit en selectiviteit kunnen hier oorzaken van zijn. Het berekenen van het gemiddelde sluit geen bias uit, want dat ligt in zijn geheel naast de werkelijke waarde. De scores kunnen wel betrouwbaar zijn als ze heel dicht bij elkaar liggen, dus moet hierop gecontroleerd worden door bepalen van de validiteit. Systematische fouten zijn de mate van afwijking van de werkelijke waarde en het construct.

Een andere indeling naar fouten is die tussen waarnemingsfouten en interpretatiefouten. De eerste komen voor als het waarnemen wordt bemoeilijkt of de observator niet goed functioneert. Waarnemingsfouten zijn vaker toevallig dan systematisch. Oorzaken liggen vaak in de ervarenheid en oplettendheid van de observator of in de omgeving door lawaai of slechte belichting, of bij videoregistratie door slecht geluid of cameramanbias.

Interpretatiefouten ontstaan tijdens het observeren of erna en is meestal meer systematisch dan toevallig, in tegenstelling tot de waarnemingsfouten. Deze fouten ontstaan vooral bij molair observeren en rating, dus door observatorbias en subjectiviteit. Dit laatste is niet altijd heel erg, denk bijvoorbeeld aan intersubjectiviteit waar veel consensus is over een subjectief oordeel. Observatorbias is eigenlijk alleen systematisch en kan leiden tot waarnemings- en/ of interpretatiefouten zoals het halo effect, contrast, recency effect en stereotypering. Oorzaken voor deze bias zijn selectiviteit en subjectiviteit, of dit nou komt door de observator of de situatie. Voorkomen van selectiviteit en subjectiviteit en dus observatorbias door de observator te trainen om bijvoorbeeld betere intersubjectiviteit te krijgen, en storing vanuit de omgeving zoveel mogelijk beperken en observatoren veel te laten discussiëren.

De wat-vraag van het begin is nu beantwoord, namelijk het opdelen en categoriseren van gedrag geeft hier inzicht in. De wie-vraag heeft betrekking op de steekproef die groot genoeg moet zijn en uit een relevante populatie getrokken naar aanleiding van de definitie. Sampling kan random (elke tiende voorbijganger) of van tevoren (iedereen met een A in de achternaam). Er is sprake van focal sampling als iemand of een groep focus is van onderzoek, de sampling van gedrag wordt vooral bepaald door de sampling van personen. Er kan ook ad libitum gesampled worden. Dan wordt op gedrag gesampled en mogen mensen zelf kiezen in welke groep ze willen. Deze vrije methode komt vooral voor bij beschrijvend onderzoek.

Als de persoon optreedt als modifier, moet bij de gedragsscore vermeld worden op wie het betrekking heeft. Bij de waar-vraag draait het om de keuze voor het lab of het veld (controle versus generalisaties), gedrag onderzoeken in een of meer situaties en openlijk of verborgen observeren, maar dat staat allemaal in het design.

Als men de hoe-vraag probeert te beantwoorden, bepaald men of er gebruik wordt gemaakt van directe observatie of registratie. Verder is er de keuze voor soort apparatuur en wel of niet een tijdschaal.

Er zijn drie soorten van apparatuur die bruikbaar kunnen zijn, namelijk:

Apparatuur voor registratie, dus de voorgenoemde video en andere spullen. Het voordeel is de mogelijkheid tot het vertraagd afspelen van een en ander, maar deze apparatuur zijn niet de kern van observatie.
De event recorder. Dit apparaat is er om de frequentie en duur te meten door op knoppen te drukken. De volgorde van de gedragingen wordt door de computer ook aangegeven. Het reeds bekende voorbeeld is het programma The Observer.
Apparatuur voor eenvoudige observatie, te weten de eigen hersencapaciteit die door trainen verbeterd kan worden en externe ‘apparaten’ zoals simpel potlood en papier of een stopwatch. Manieren om hiermee onopvallend te blijven staan in Webb’s boek ‘Unobtrusive measurement’.

Het tweede belangrijke aspect bij de hoe-vraag, is wel of geen tijdschaal. Wat de tijdschaal betreft, zijn er drie mogelijkheden:

Selecteren op basis van gedrag. Dit heet event sampling en is makkelijker dan selecteren op basis van tijd. Het maakt gebruik van een totaalscore en is daarom globaler en er worden geen aparte gedragselementen verwerkt. Het enige soort uitspraken dat hiermee gedaan kan worden is bijvoorbeeld: proefpersoon twee knipperde in tien minuten tijd zes keer met haar ogen.
Time sampling, wat niet precies hetzelfde is als interval sampling, maar vaak wel door elkaar wordt gebruikt. Time sampling is het trekken van een steekproef, waarna uitspraken over het totale gedrag gedaan kunnen worden. Het kan random door middel van random time generator of op gezette tijden. Het kenmerk is dat er grote tijd zit tussen de steekproeven. Interval sampling is een vorm van time sampling en gaat over korte intervallen, meestal niet langer dan een minuut. Het sample point, het eind van elk interval, wordt aangegeven door een signaal. Bij een puntscore of instantaneous sampling, gebeurt het scoren op het moment van het signaal en gaat het over hetgeen er dan op dat precieze moment gebeurt. One-zero sampling of samenvattende scoring wordt op het signaal genoteerd wat er gedurende het gehele interval gebeurd is. De gemiddelde boutlengte is hoe lang het gedrag precies duurt. Dit is bij oogknipperingen erg kort, dus zijn er grote kansen op missers.

De intervallengte kan bepaald worden naar aanleiding van de gemiddelde boutlengte. Ideaal is als het interval iets korter duurt dan de gemiddelde boutlengte. Door interval sampling kan een redelijk beeld van de werkelijkheid verkregen worden, maar dit is nooit zeker omdat het een steekproef is. De keuze voor de intervallengte is erg belangrijk, vooral bij samenvattende sampling. Bij de puntscore worden korte gedragingen gemakkelijk gemist, maar bij samenvattende kun je het precieze aantal keer dat het gedrag voorkomt missen. Denk aan het aantal frames per seconde van een film die de werkelijkheid beter weergeeft bij een hoger aantal. Een voordeel is ook dat bekend is wat men niet doet, bijvoorbeeld hoe vaak iemand niet lacht.

Een ander probleem is alignment error als observatoren niet precies op hetzelfde sample punt beginnen. Men krijgt dan wel ongeveer gelijke scores, maar er is verschil op de sample punten. Dit kan verbeterd worden door bepaalde computerprogramma's.

Het opschrijven van codes van gedragselementen, zoals bij het observeren van de tenniswedstrijd: event recording. Het is niet moeilijker, maar geeft wel meer info dan simpelweg turven. Eventueel kan een computer de tijd van het event of de state opnemen. De grafische weergave die dan ontstaat is een plot of event recording.

De verkregen scores moeten verkregen worden in een datamatrix, die de score aangeeft op een bepaalde variabele voor een bepaald persoon. De moeilijkheden zijn dat vaak gebruik wordt gemaakt van verschillende omstandigheden door onafhankelijke variabelen bij de condities. Between subjects design is als verschillende proefpersonen random aan verschillende condities toegewezen zijn. Within subjects designs als dezelfde persoon voor verschillende omstandigheden gebruikt wordt. Een ander probleem is het verwerken van de gegevens door verschillende observatoren. Er moeten dan extra kolommen in de matrix toegevoegd worden, voor elke observator een. Analyseren is makkelijk naar aanleiding van deze totaalscores. Er kan echter niets gezegd worden over de volgorde, maar dat is met een driedimensionale matrix met variabelen, cases en een tijdas wel mogelijk. De drie dimensionale matrix kan met behulp van een computer makkelijk gemaakt worden.

Als alle voorgaande stadia doorlopen zijn, is het tijd voor de methodologie, waarbij eerst een onderzoeksdesign gemaakt moet worden. Voor beschrijvend of correlationeel onderzoek, voor zover kwantificerend, en vergelijkend onderzoek gaat het als volgt. Voor het vergelijkende onderzoek moeten eerst de afhankelijke en de onafhankelijke variabelen bepaald worden. De onafhankelijke variabelen kunnen gemanipuleerd worden, maar ook echt aanwezig zijn, zoals bij blokvariabelen. Het meest voorkomende blokvariabele is geslacht of leeftijd. Als er slechts een onafhankelijke variabele is, bestaat het onderzoeksdesign uit een experimentele en een controle groep. De proefpersonen moeten willekeurig of aselect worden toegewezen aan een van de groepen, bijvoorbeeld at random. In een factorieel design kunnen meer onafhankelijke variabelen gecombineerd worden. Het aantal mogelijkheden wordt aangegeven door de notatie die bijvoorbeeld 2 bij 2 of 3 bij 3 kan zijn. Sampling is steekproeftrekking, in dit geval voor proefpersonen of proefpersonen aan condities toewijzen zoals bij de keuze experimentele of controle groep. Sampling is belangrijk om te kunnen generaliseren en kan gebeuren door randomisering. De hoeveelheid moet in het verslag vermeld worden, want veel of weinig proefpersonen maakt uit voor het trekken van conclusies, net als het soort proefpersonen, bijvoorbeeld studenten of zelfstandige bejaarden. Als er veel scores zijn op verschillende variabelen, maar van weinig proefpersonen, kan er sprake zijn van afhankelijkheid van meting. Dit betekent dat de score op de ene variabele beïnvloed wordt door die op een ander. Een persoon kan dan veel invloed hebben en er kan dus wederom niet worden gegeneraliseerd. Het is ook beter om veel proefpersonen te gebruiken voor de geldige statistische toetsing.

Bij het meten van de afhankelijke variabele moet rekening gehouden worden met volgorde-effecten ofwel leereffecten en onderling afhankelijkheid van de metingen. De verschillen kunnen dan komen door het humeur van de observator of andere externe factoren. In het design moet ook vermeld worden hoe de niet-bedoelde effecten uitgeschakeld zijn. Deze verwarringscheppende bronnen heten confounding factoren. De volgorde- of leereffecten vallen hier ook onder. Een ander oneigenlijk effect is dat de proefpersoon of de observator de uitkomst van het onderzoek beïnvloedt, daarom kan het vaak nuttig zijn om een blind of dubbel blind onderzoek te houden. De informatie die in het algemeen design moet staan is dus: het soort onderzoek (beschrijvend of verklarend), de onafhankelijke variabelen, de condities, hoe de sampling heeft plaatsgevonden en het toewijzen van personen aan condities, het aantal en soort proefpersonen, hoe de afhankelijke variabele is gemeten, de afhankelijkheid van de meting, eventuele herhaling van de meting en controles op oneigenlijke effecten.

Bij observatie specifiek is er een tussenstap tussen observatie en gedrag, namelijk de registratie (vooral video en film en audioapparatuur) en eventuele transcriptie, het letterlijk weergeven van het gesprokene. Het nadeel van video is dat de objectiviteit schijn is, want er zijn technische tekortkomingen en cameramanbias. Dit is de selectiviteit en de subjectiviteit van de filmer. Het valt enigszins te beperken door niet in te zoomen en gebruik te maken van een statief. Door de herhaalbaarheid is men meer tijd kwijt aan het observeren met registratie, maar daar staat dan weer nauwkeurigheid tegenover. Bij direct observeren kunnen dingen gemist worden, maar ook bij registratie kunnen belangrijke dingen ontbreken. Computerapparatuur kan registratie makkelijker verwerken en de fouten herstellen, alleen is hiervoor meestal een technisch expert nodig.

Access:

Public

Check more: click and go to more related summaries or chapters

Professionele vaardigheden in de Pedagogiek: De beste studieboeken samengevat

Samenvatting van Opvoeden als beroep: professioneel werken in zorg en onderwijs van Kok - 9e druk

Samenvatting Gedragsobservatie: een inleiding tot systematisch observeren van van de Sande

Samenvatting bij Basisboek systeemgericht werken van Nabuurs

Samenvatting Learning about learning disabilities (Wong & Butler)

Samenvatting bij Evaluatie van benaderingen om taal te beoordelen bij tweetalige kinderen

Pedagogy and education - Theme

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.