Hoe kan data worden verzameld door gedragswetenschappers?

Data verzamelen
Kwantitatieve versus kwalitatieve data
Verbanden
Ruwe data interpreteren en weergeven
Centrale tendens
Metingen van variabiliteit

Data verzamelen

De manieren die gedragswetenschappers gebruiken om data te verzamelen worden onderverdeeld in drie groepen:

Observationele meetsoorten: in dit geval wordt gedrag op een directe manier geobserveerd. Dit kan gedaan worden bij elk onderzoek waarbij het gedrag dat onderzocht wordt direct waargenomen kan worden. Onderzoekers kunnen het gedrag direct observeren, of kunnen audio- of video-opnames maken, waaruit informatie over de proefpersonen kan worden afgeleid. De afhankelijke en onafhankelijke variabelen waarin de onderzoeker geïnteresseerd is, worden in dit geval niet gemanipuleerd. Bij dit soort onderzoek kunnen dan ook geen causale verbanden worden vastgesteld.
Lichamelijke meetsoorten: hier maken de wetenschappers gebruik van wanneer ze benieuwd zijn naar de relatie tussen gedrag en niet-direct observeerbare lichaamsprocessen. Het gaat in dit geval om processen die zich in het lichaam afspelen. Ze kunnen meestal niet met het blote oog waargenomen worden. Denk hierbij bijvoorbeeld aan hartslag, zweten, hersenactiviteit en hormonale veranderingen.
Zelfrapportagemetingen: in dit geval geven de participanten zelf antwoord op vragenlijsten en interviews. Er zijn drie soorten zelfrapportages: (1) cognitieve: deze meten wat mensen denken, (2) affectieve: deze meten wat mensen voelen en (3) gedragsmatige zelfrapportages: deze meten wat mensen doen.

Kwantitatieve versus kwalitatieve data

In de statistiek wordt een onderscheid gemaakt tussen kwantitatieve en kwalitatieve data. Kwantitatieve data (ook wel meet-data) is het resultaat van een bepaalde meting, zoals een cijfer voor een toets, gewicht of scores op een eigenwaarde schaal. Er is gebruik gemaakt van een meetinstrument om te kijken hoeveel van een bepaalde eigenschap een object bezit.
Kwalitatieve data wordt ook wel frequentie data of categorische data genoemd. Hierbij worden dingen gecategoriseerd (ingedeeld), zoals ‘vijftien mensen werden geclassificeerd als ‘zeer angstig’, 33 als ‘neutraal’ en 12 als ‘weinig angstig’’. De data bestaat uit frequenties voor elke categorie.

Verbanden

Het meeste onderzoek wordt gedaan om verbanden tussen variabelen te ontdekken, bijvoorbeeld het verband tussen slaapgewoontes en prestaties op school. De eerste onderzoekstechniek om verbanden te ontdekken is de correlationele methode. Bij deze onderzoeksmethode observeert de onderzoeker twee variabelen om te ontdekken of hier een verband tussen bestaat. De experimentele methode wordt gebruikt wanneer een onderzoeker geïnteresseerd is in een oorzaak-gevolg relatie tussen variabelen. Een verandering in de ene variabele zal dan een verandering in de andere variabele tot gevolg hebben. Deze methode heeft twee essentiële kenmerken. Ten eerste is er sprake van manipulatie. Dit houdt in dat de onderzoeker de waarden van een variabele (X) verandert. Waarden van de tweede variabele (Y) worden vervolgens gemeten om te zien of de verandering van X invloed heeft op de waarde van Y. Het tweede kenmerk is controle, dit houdt in dat de onderzoeker de onderzoekssituatie constant moet houden. Als gevolg van deze controle kan gezegd worden dat Y is veroorzaakt door X en niet door een andere variabele. Het is belangrijk om je ervan bewust te zijn dat correlatie niet hetzelfde is als causatie. Een correlatie houdt in dat er een verband is tussen variabelen, maar dit zegt niks over in welke richting dit verband is. Je kunt dan dus niet zeggen dat de ene variabele veroorzaakt wordt door de andere variabele. Om te spreken van causaliteit moet aan drie voorwaarden worden voldaan:

Covariantie: variabelen moeten samen variëren. Een hoge score op de x-variabele moet samengaan met een hoge score op de y-variabele.
Richting: de oorzaak moet vooraf gaan aan het gevolg.
Uitsluiting van de invloed van andere variabelen: het kan bijvoorbeeld zo zijn dat een derde variabele (z) zowel variabele x als variabele y beïnvloedt.

Ruwe data interpreteren en weergeven

Frequentiedistributies, proporties en intervallen

Wanneer metingen bij proefpersonen zijn gedaan, worden de gegevens die verkregen zijn ruwe data genoemd. Deze gegevens zijn lastig te interpreteren, dus moeten er stappen ondernomen worden om deze data te verwerken. Ruwe data is slechts een verzameling getallen. Er kan structuur worden aangebracht door de data bijvoorbeeld in een grafiek weer te geven. Wanneer reactietijden worden gemeten kan je hier bijvoorbeeld een frequentiedistributie van maken. Hierin wordt aangegeven hoe vaak een bepaalde reactietijd voorkwam. Zo wordt zichtbaar welke reactietijd het meest voorkwam. Het beschrijven van proporties en percentages is ook handig in een frequentieverdeling. Een proportie bereken je door de frequentie die bij een X-waarde hoort te delen door het totale aantal mensen. Als er bijvoorbeeld binnen een klas van twintig mensen twee mensen een zes (X=6) hebben gehaald, dan is de bijbehorende proportie (bij X=6) 2/20= 0.10. De formule is: proportie = p=f/N (f staat voor frequentie en N voor het totale aantal mensen). Omdat proporties altijd in relatie tot het totale aantal mensen (N) worden berekend, noemen we ze relatieve frequenties. Percentages kunnen verkregen worden door proporties met honderd te vermenigvuldigen. Daarom: percentage =p(100)=f/N(100). Soms zijn er heel veel verschillende scores mogelijk, waardoor het handiger is om een gegroepeerde frequentieverdeling te maken. We maken dan groepen van scores, in plaats van dat we enkel naar individuele waarden kijken. De groepen (of intervallen) worden klasse-intervallen genoemd. In plaats van dat je bijvoorbeeld elke mogelijke lengte noteert, kun je groepen met verschillende lengte-intervallen maken. Zo kan de ene groep een interval hebben van 100 cm tot 120 cm en de volgende van 121 tot 140 cm. Achter elke groep kan de frequentie genoteerd worden.

Grafieken

Een frequentiedistributie is goed uit te beelden in een figuur, dit wordt een grafiek genoemd. Een voorbeeld hiervan is een histogram. De horizontale as wordt de X-as genoemd, en de verticale as de Y-as. De categorieën staan op de horizontale as, en de frequenties op de verticale as. Om een histogram te maken moeten staven worden getekend. De hoogte van elke staaf correspondeert met de frequentie van die categorie. Een staafdiagram is in principe hetzelfde als een histogram, alleen staan de staven niet helemaal tegen elkaar aan. In een grafiek worden ook waardes die sterk afwijken van de andere waardes zichtbaar. Deze waardes worden outliers genoemd en zijn vaak niet bruikbaar. Naast grafieken kunnen ook lijnen toegepast worden op de verkregen data. De meest gebruikte lijn is de normaalcurve. Deze lijn is het hoogst in het midden van de distributie, en loopt symmetrisch af naar beneden aan beide kanten van het midden. De normaalverdeling is symmetrisch, maar niet elke verdeling ziet er zo uit. Een bimodale verdeling heeft bijvoorbeeld twee pieken. Als een distributie maar één piek heeft, wordt het een unimodale verdeling genoemd. Een distributie kan ook assymetrisch zijn omdat de verdeling aan één van beide zijden van de piek langer uitloopt. Een distributie met een ‘staart’ naar de linkerkant heeft een negatieve scheefheid (‘skew’), en een distributie met een ‘staart’ naar de rechterkant heeft een positieve scheefheid.
Naast histogrammen en staafdiagrammen wordt er ook gebruik gemaakt van stem-and-leaf-plots. Hierbij wordt elke score opgedeeld in twee delen. Het eerste cijfer (bijvoorbeeld de 1 van 12) wordt de stam genoemd, terwijl het laatste getal (bijvoorbeeld de 2 van de 12) het blad wordt genoemd. Als je een plot maakt moeten eerst alle stammen van de getallen genoteerd worden (het eerste cijfer van een tiental of honderdtal bijvoorbeeld).Vervolgens moet elk blad van elke score naast de stam genoteerd worden. Een stam-en-blad plot biedt de mogelijkheid iedere individuele score snel terug te vinden, wat soms nodig is voor het uitvoeren van berekeningen. Dit is niet mogelijk bij een frequentiedistributie.

Percentielen

Individuele scores worden ruwe scores genoemd. Deze geven echter niet veel informatie. Als je iemand vertelt dat je 43 punten hebt gescoord voor een tentamen, is het niet duidelijk of dit veel of weinig punten zijn. Om zo’n score te kunnen interpreteren, moet duidelijk zijn wat de gemiddelde score is. De rank of percentielrang is een getal dat aangeeft hoeveel procent van alle individuen in de distributie onder een bepaalde waarde vallen. Wanneer een score zo wordt weergegeven, wordt deze score een percentiel genoemd. De percentielrang staat voor een percentage terwijl een percentiel voor een score staat. Om percentielen of percentielrangen vast te stellen, moet eerst uitgezocht worden hoeveel individuen op of onder een bepaald punt in een distributie liggen. Dit kan gedaan worden door het aantal individuen op te tellen dat onder een score valt. Het resultaat wordt een cumulatieve frequentie genoemd. Achter elke X kan naast de frequentie de cumulatieve frequentie genoteerd worden. Om van de cumulatieve frequenties percentielen te maken, moeten deze frequenties omgezet worden in percentages. De resulterende waarden worden cumulatieve percentages genoemd. Deze percentages laten zien hoeveel procent van de individuen onder een bepaalde X-waarde vallen. Een makkelijke manier om percentielen te gebruiken zijn kwartielen. Het eerste kwartiel (Q1) is 25%, het tweede kwartiel (Q2) is 50% (de mediaan dus) en het derde kwartiel (Q3) is 75%. De afstand tussen het eerste en het derde kwartiel wordt het interkwartiele bereik genoemd. 1,5 maal de IQR boven Q3 of onder Q1 is een maatstaf om mogelijke uitschieters te vinden. Al deze gegevens kunnen worden weergegeven in een boxplot. De zogenaamde ‘box’ loopt van het eerste kwartiel tot het derde kwartiel. Vervolgens loopt er een horizontale lijn in de box die de mediaan aangeeft. Een verticale lijn loopt van de laagste observatie tot de hoogste observatie; deze lijn gaat dus ook door de box heen. Uitschieters worden echter aangegeven met een sterretje boven of onder de lijn.

Centrale tendens

Metingen van de centrale tendens zijn metingen die aantonen waar op de schaal de distributie zich centreert. Er zijn drie manieren om dit te doen: de modus, de mediaan en het gemiddelde. De manieren verschillen in de hoeveelheid data die ze gebruiken.

Modus: wordt het minst gebruikt en is vaak het minst bruikbaar. Dit is simpelweg de meest voorkomende score. In het geval dat twee aangrenzende scores even vaak voorkomen, wordt hieruit het gemiddelde genomen.
Mediaan: de score die correspondeert met het punt waarop of onder 50% van de scores vallen als de data geordend is op numerieke volgorde. Daarom wordt het ook wel het 50^e percentiel genoemd. Stel dat we de scores 4, 6, 8, 9 en 16 hebben, dan is 8 de mediaan. Bij een even aantal scores, dus 4, 6, 8, 12, 15 en 16, valt de mediaan tussen de 8 en de 12. In dat geval wordt het gemiddelde van de twee middelste scores als mediaan genomen (10). Een handige formule om het scorenummer te vinden waar de mediaan valt, is die van de mediaan locatie: (N+1)/2.
Gemiddelde: deze meting van de centrale tendens wordt het meest gebruikt, omdat alle scores van een verdeling hierin meetellen. Het gemiddelde is de som van de scores, gedeeld door het aantal scores, oftewel: = (ΣX)/N. Een nadeel van het gemiddelde is dat het beïnvloed wordt door extreme scores. Daarom wordt soms het ‘bijgeknipt’ gemiddelde gebruikt. Dan worden aan elk uiteinde van de distributie de laatste tien scores weggelaten en wordt het gemiddelde van de overige scores berekend. Hierdoor vallen extreme waardes weg en wordt de schatting van het gemiddelde stabieler.

Metingen van variabiliteit

De variabiliteit van een distributie gaat over de mate waarin de scores verspreid liggen of geclusterd zijn. Variabiliteit geeft met een kwantitatieve waarde aan hoeveel verschil er is tussen scores. Een grote waarde staat voor veel spreiding. Het meten van variabiliteit dient twee doelen:

Het beschrijven van de afstand die verwacht kan worden tussen scores;
Het meten van de representativiteit van een score voor de gehele verdeling.

De range is een meting van de afstand tussen de hoogste en de laagste score. De laagste score moet dan van de hoogste score worden afgetrokken. De range kan echter een verkeerd beeld geven door extreme waardes. Het nadeel is dat er bij de range geen rekening wordt gehouden met alle waardes, maar slechts met de extreme waardes.

Variantie en standaarddeviatie

De standaarddeviatie of standaardafwijking (SD) is de meest gebruikte en meest belangrijke maat voor spreiding. Deze maat gebruikt het gemiddelde van de verdeling als vergelijkingspunt. De standaarddeviatie maakt daarnaast gebruik van de afstand tussen individuele scores en het gemiddelde van een dataset. Met de standaarddeviatie kan nagegaan worden of de individuele scores in het algemeen dicht of ver van het gemiddelde afliggen. De standaarddeviatie kan aan de hand van vier stappen berekend worden.

Allereerst moet de deviatie (afstand of afwijking) van elke individuele score tot het gemiddelde uitgerekend worden. De deviatie is dan ook het verschil tussen elke individuele score en het gemiddelde van de dataset. De bijbehorende formule is: deviatiescore= X- µ. De X staat voor een individuele score, terwijl µ staat voor het gemiddelde van dataset.
In de volgende stap moet het gemiddelde van de deviatiescores berekend worden. Dit wordt gedaan door alle deviatiescores op te tellen en te delen door het aantal deviatiescores (N). De deviatiescores zijn samen altijd nul. Voordat het gemiddelde kan worden berekend, wordt elke deviatiescore daarom eerst tussen haakjes gekwadrateerd.
Vervolgens wordt het gemiddelde berekend van de gekwadrateerde waarden. Dit wordt de gemiddelde gekwadrateerde deviatie of de variantie genoemd. De formule voor variantie is: σ² = ∑(X-μ)².
Ten slotte dient de wortel getrokken te worden uit de variantie. Dit resulteert in de standaarddeviatie. De uiteindelijke formule voor de standaarddeviatie is dus: σ = √(∑(X-μ)²/N)

Vaak is de variantie een groot en onduidelijk getal, omdat het om een gekwadrateerd getal gaat. Het is daarom handiger en begrijpelijker om de standaarddeviatie te berekenen en te presenteren.

In een steekproef met n aantal scores, kunnen de eerste n-1 scores variëren, maar de laatste score staat vast. De steekproef heeft n-1 vrijheidsgraden. De afkorting voor vrijheidsgraden is df (degrees of freedom).

Systematische variantie en errorvariantie

De totale variantie in een dataset kan opgesplitst worden in (1) systematische variantie en (2) errorvariantie:

Systematische variantie staat voor dat deel van de totale variantie dat op een voorspelbare manier gerelateerd is aan de variabelen die een wetenschapper onderzoekt.
Errorvariantie ontstaat wanneer het gedrag van deelnemers beïnvloed wordt door variabelen die de wetenschapper niet onderzoekt. Als iemand bijvoorbeeld hoog op agressie scoort, kan dit ook komen door zijn of haar slechte humeur in plaats van de temperatuur. Deze vorm van variantie kan dus niet door het onderzoek verklaard worden. Hoe meer errorvariantie er in een dataset zit, hoe moeilijker het is om te bepalen of de gemanipuleerde variabelen (onafhankelijke variabelen) ook echt gerelateerd zijn aan het gedrag dat men wil onderzoeken (de afhankelijke variabele). Onderzoekers willen dan ook zo weinig mogelijk errorvariantie in hun onderzoek.

Access:

Public