Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Image

Hoorcollegeaantekeningen BS

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.

Hoorcollege 1B

Hoofdstuk 1

Bij beschrijvende statistiek: samenvattend beschrijven van de kenmerken van een groep onderzoekseenheden (‘wie’ of ‘wat’ van het onderzoek. Variabele is een ander woord voor kenmerk. Datamatrix: tabel waarin de variabelen en de cases (onderzoekseenheden) staan.

 

Soorten analyses:

Univariate analyse: er wordt maar één variabele geanalyseerd. Bij een univariate analyse kun je

Bivariate analyse: er worden twee variabelen geanalyseerd (de samenhang tussen x en y)

Multivariate analyse: er worden meer dan twee variabelen geanalyseerd.

 

Nominaal meetniveau: je kunt niet met de waarden van de variabele rekenen. De numerieke waarde is slechts een naamgeving, heeft als getal geen betekenis. Geen rangordening. Bijv. geslacht, politieke partij, beroep.

Ordinaal meetniveau: er is een rangorde. De intervallen tussen de waarden van de variabelen hebben geen betekenis. Bijv. opleiding, inkomen.

Interval meetniveau: er is een rangorde. De intervallen tussen de verschillende waarden die een variabele aan kan nemen hebben ook een betekenis. Er is geen natuurlijk/absoluut nulpunt. Bijv. temperatuur.

Ratio meetniveau: er is een rangorde, de intervallen hebben betekenis, er is een natuurlijk nulpunt aanwezig. Niet alleen de verschillen tussen afzonderlijke waarden hebben betekenis, maar ook het quotiënt (het resultaat van een deling). Bijv. lengte.

 

Sommatienotatie, deze formule betekent dat je waarden van x optelt.

 

Rekenkundig gemiddelde berekenen (kan alleen op ratio- en intervalniveau):

Vanuit een frequentietabel het gemiddelde berekenen: je vermenigvuldigt voor elke groep de waarde x met de frequentie. De producten van alle groepen tel je bij elkaar op en deel je door het totaal aantal onderzoekseenheden (n).

 

Mediaan: waarde van de middelste onderzoekseenheid na rangordening. Gebruik je vanaf ordinaal meetniveau. Bij een even aantal waarnemingen neem je het gemiddelde van de middelste twee waarnemingen na rangordening. De mediaan is altijd een getal, geen percentage o.i.d. Om de mediaan te bepalen, kijk je naar de cumulatieve percentages in een frequentieverdeling: de waarde die als eerste boven de 50%-grens komt, is de mediaan.

Modus: de meest voorkomende waarde. Kan bij alle meetniveaus. Bij meerdere meest voorkomende waarden zeg je dat er geen modus is of dat er 2 modi zijn. Om de modus te bepalen, kijk je naar de percentages: de waarde met het hoogste percentage is de modus.

 

Staafdiagram: hoe vaak komt iets voor? Bij nominaal en ordinaal meetniveau.

Cirkeldiagram: wat komt relatief vaak voor? Dus in percentages berekend. Bij nominaal en ordinaal meetniveau, behalve als er veel categorieën zijn.

 

Keuze voor centrummaten:

Nominaal: modus

Ordinaal: modus, mediaan

Interval en ratio: modus, mediaan, gemiddelde

Let bij interval- en rationiveau op extreme waarden!

 

Hoorcollege 2B

Hoofdstuk 2 en 3

 

Spreiding: afstand van de score t.o.v. bepaald middelpunt

Verschillende soorten spreiding:

Minimaal ordinaal meetniveau:

  • Range

  • Interkwartielafstand

Minimaal interval meetniveau:

  • Variatie

  • Variantie

  • Standaarddeviatie

 

Range:

  • Verschil tussen de hoogste en laagste getalswaarden in een reeks

  • Nadeel: volkomen afhankelijk van extreme waarden

Interkwartielafstand (Q3 – Q1):

  • Mediaan is tweede kwartiel (Q2): 50% van de waarnemingen ligt erboven, 50% van de waarnemingen ligt eronder.

  • Het eerste kwartiel (Q1) is de waarde van de waarnemingen waar boven 75% (driekwart) en waar beneden 25% (een kwart) van alle waarnemingen liggen.

  • Het derde kwartiel (Q3) is de waarde van de waarnemingen waar beneden 75% (driekwart) en waar boven 25% (een kwart) van alle waarnemingen liggen.

 

Variatie: totale afwijking van het gemiddelde

Variantie: gemiddelde variatie

Standaarddeviatie: wortel uit de variantie

De variatie, variantie en standaarddeviatie geven de mate aan waarin de onderzoekseenheden afwijken van het rekenkundig gemiddelde.

 

Variatie: de som van de individuele verschillen t.o.v. het gemiddeld in het kwadraat

Score – gemiddelde = spreiding

Spreiding op interval- of rationiveau: gemiddelde afstand t.o.v. het gemiddelde

Je komt altijd uit op 0! Daarom kwadrateer je de spreiding van de onderzoekseenheden.

 

Variantie: gemiddelde van de variatie

 

Standaarddeviatie:

Omdat de variantie (door de kwadratensom) moeilijk te interpreteren is, gebruiken we meestal de standaarddeviatie. Standaarddeviatie (s) is de wortel van de variantie (s2). Hoe lager de standaarddeviatie, hoe dichter de individuele scores van de onderzoekseenheden bij het gemiddelde liggen.

We rekenen altijd met drie decimalen en interpreteren met twee decimalen!

 

Standaardiseren: z-scores

Als variabelen zijn gemeten met verschillende meeteenheden. We kunnen standaardiseren met z-scores. Z-scores zijn gebaseerd op de standaarddeviatie van een variabele ⇒ minimaal intervalniveau dus! Z-scores zijn gestandaardiseerde scores voor een variabele waarbij de variabele wordt ontdaan van zijn meeteenheid. Alleen op interval/rationiveau, want formule maakt gebruik van gemiddelde en standaarddeviatie.

Z-score: het aantal standaarddeviaties dat een bepaalde score boven of onder het gemiddelde van de reeks scores ligt.

Histogram en frequentiepolygoon gebruik je om de spreiding te bekijken.

 

Symmetrie en asymmetrie: relaties tussen variabelen

Symmetrische relatie: er is geen duidelijk verschil tussen een afhankelijke en een onafhankelijke variabele.

Asymmetrische relatie: er is een verschil tussen een afhankelijke en een onafhankelijke variabele.

Afhankelijke variabele: de variabele die door de onafhankelijke variabele wordt beïnvloed. Meestal aangegeven met y.

Onafhankelijke variabele: de variabele die invloed uitoefent, en zelf niet verandert. Meestal aangegeven door x.

Sommige variabelen zijn altijd onafhankelijk, anderen door keuze van de onderzoeker.

 

Categorisch: nominaal of ordinaal

 

Hoorcollege 3B

Hoofdstuk 4.1 t/m 4.3, 5.1

Je gaat in een stelling altijd uit van het laagste meetniveau. Als er één variabele nominaal is in je vraagstelling/hypothese, noem je dat een nominale vraagstelling/hypothese. In je datamatrix kun je zien of er een verband is tussen variabelen. Je stelt de kolommen altijd af op 100%, niet de rijen. De waarden die je direct waarneemt in je kruistabel noem je de geobserveerde waarden.

 

 

Een associatie- of samenhangsmaat is een manier om samenhang te meten tussen variabelen. Je gebruikt de maat Cramers V om samenhang te meten als beide of een van beide variabelen nominaal is. Deze manier van meten kan alleen maar aangeven hoe sterk een verband is en niet de richting van het verband, want bij nominale variabelen is er geen ordening in de waarden: daarom kan een associatie- of samenhangsmaat bij nominale variabelen ook geen richting aangeven. V is nooit negatief, maar varieert tussen 0 en 1.

 

Cramers V in formule:

 

Chi kwadraat in formule:

De maximale waarde van chi kwadraat in formule:

 

fo zijn de aantallen onderzoekseenheden in elke cel, de geobserveerde celfrequenties.

fe zijn de verwachte celfrequenties als er geen enkele samenhang zou zijn tussen de variabelen. Elke celfrequentie zou dan gelijk zijn aan de randtotalen. De percentages moet je nog omrekenen naar absolute getallen voordat je ze in je formule kan stoppen. Dat doe je door het kolomtotaal van de cel te vermenigvuldigen met het rijpercentage. De maximale waarde van chi kwadraat bereken je door van het minimaal aantal rijen OF kolommen (bij een 2 x 3 tabel dus 2) 1 af te trekken, en die uitkomst te vermenigvuldigen met het aantal onderzoekseenheden (n). Vervolgens trek je daar de wortel van. Cramers V kan nooit negatief zijn, want de uitkomst is gebaseerd op een kwadraat. Onthouden: we rekenen met drie decimalen, maar we interpreteren met twee decimalen!

 

Er is geen enkel verband tussen de variabelen als de celpercentages gelijk zijn aan de totale percentages in de meest rechtse kolom. Er is een perfect verband als er celpercentages van 100% zijn. Beredeneren doe je vanuit de kolommen, die stel je op 100%!

 

Interpretatie sterkte van het verband:

0 – 0.1: zeer zwak/geen verband

0.11 – 0.3: zwak verband

0.31 – 0.5: redelijk verband

0.51 – 0.8: sterk verband

0.81 – 0.99: zeer sterk verband

1: perfect verband

 

[SPSS uitleg]

 

Na het berekenen van een nominale associatiemaat, geef je de maat en de waarde van de maat (afronden op twee decimalen!). Ook geef je een interpretatie van de sterkte van de maat (gebruik bovenstaand rijtje). Herhaal de variabelen waarvan je het verband gemeten hebt. Noem de onderzoekseenheden (als dat zinvol is). Dit hoeft alleen als er een specifieke onderzoeksgroep is. Als de onderzoekseenheden mensen zijn, is het niet zo zinvol. Gebruik minimaal twee percentages uit de kruistabel die het relevants zijn voor jouw aantoning van het verband (bijvoorbeeld twee hele hoge waarden of juist opvallend lage).

 

Phi is ook een nominale associatiemaat. Het verschil met Cramers V is dat je Phi alleen gebruikt bij 2 x 2 tabellen, en dat je om Phi te berekenen deelt door het aantal onderzoekseenheden (n) in plaats van de maximale waarde die chi kwadraat kan aannemen. Zoals je ziet in de formules, gebruik je ook bij deze maat chi kwadraat.

 

Phi in formule:

[SPSS uitleg]

 

Samenvatting berekenen Cramers V en Phi:

  1. Bereken de percentages (percenteer op kolommen)

  2. Bereken de randpercentages van de rijen

  3. Maak een tabel met fe’s op basis van de randtotalen en randpercentages.

  4. Stop de fo’s de fe’s in de formule voor Cramers V/Phi

 

Gamma is een associatiemaat die je gebruikt bij variabelen met minimaal ordinaal niveau: in de hypothese moeten alle variabelen minimaal ordinaal zijn. Bij ordinaal variabelen is er een ordeningen in de waarden: daarom kan een associatiemaat bij ordinale variabelen naast de sterkte van het verband ook de richting van het verband aangeven. Gamma kan variëren tussen de -1 en 1. Als er een – voor staat is het verband negatief, als er niets of een + voor staat positief.

Gamma in formule:

Een paar is concordant als de ene onderzoekseenheid op beide variabelen hoger scoort dan de andere (Nc). Een paar is discordant als een onderzoekseenheid op de ene variabele hoger scoort en op de andere variabele lager dan de andere onderzoekseenheid (Nd).Als je Nc hoger is dan je Nd heb je een positief verband. De interpretatie van de sterke van het verband is bij gamma hetzelfde als bij Cramers V, alleen bij gamma kan er ook een – voor staan. (Voor meer duidelijkheid over het berekenen van gamma, bekijk de voorbeelden in de PowerPoint.) Als je gamma berekent, geef je op dezelfde manier de interpretatie van de associatiemaat als bij Cramers V en Phi, alleen geef je ook de richting van het verband aan.

[SPSS uitleg]

 

Hoorcollege 4B

Hoofdstuk 5

 

Basis van de associatiematen

Cramers V en Phi zijn gebaseerd op het verschil tussen de geobserveerde frequenties (fo) en de verwachte frequenties als er geen samenhang zou zijn (fe). Gamma is gebaseerd op de verhouding tussen concordante en discordante paren. Somers’ d is gebaseerd op concordante, discordante en geknoopte paren (geknoopt op de afhankelijke variabele). Kendall’s tau-b is gebaseerd op concordante, discordante en geknoopte paren. Spearman’s rho is gebaseerd op rangordening van de waarden.

Het verschil tussen Gamma en Somers’ d is dat je gamma gebruikt bij symmetrische verbanden tussen variabelen en Somers’ d bij asymmetrische verbanden. Het verschil tussen de formules van Gamma en Somers’ d is dat in de formule van Somers’ d ‘Ty’ in de noemer is toegevoegd.

 

Somers’ d in formule:

Nc = aantal concordante paren

Nd = aantal discordante paren

Ty = aantal geknoopte paren op de afhankelijke variabele y

 

Een paar is concordant als de ene onderzoekseenheid op beide variabelen hoger scoort dan de andere. Een paar is discordant als een onderzoekseenheid op de ene variabele hoger scoort en op de andere variabele lager dan de andere onderzoekseenheid. Paren zijn geknoopt als ze op een van de twee variabelen dezelfde waarde hebben.

Voor de interpretatie van de associatiemaat geef je de associatiemaat en de waarde van de maat (afronden op twee decimalen!). Ook geef je een interpretatie van de sterkte van de maat. Herhaal de variabelen waarvan je het verband gemeten hebt. Noem de onderzoekseenheden (als dat zinvol is). Dit hoeft alleen als er een specifieke onderzoeksgroep is. Als de onderzoekseenheden mensen zijn, is het niet zo zinvol. Gebruik minimaal twee percentages uit de kruistabel die het relevants zijn voor jouw aantoning van het verband (bijvoorbeeld twee hele hoge waarden of juist opvallend lage).

[SPSS uitleg]

 

Somers’ d gebruik je dus alleen bij asymmetrische relaties, je moet namelijk weten wat de afhankelijke variabele is. Bij asymmetrische relaties wordt de onafhankelijke variabele vaak in de kolommen gezet.

 

Bij nominaal meetniveau gebruik je bij een symmetrische relatie de associatiematen Cramers V en Phi. Bij een asymmetrische relatie gebruik je Kruskal en Goodman’s tau lambda (nog niet gehad). Op ordinaal niveau gebruik je bij een symmetrische relatie de associatiematen Gamma, Kendall’s tau-b en Spearman’s rho. Bij een asymmetrische relatie gebruik je Somers’ d. Je mag wel een symmetrische maat voor een asymmetrische relatie berekenen, maar niet andersom!

 

Kendall’s tau-b gebruik je als beide variabelen ordinaal zijn en bij een symmetrische relatie. Deze associatiemaat gebruik je alleen bij vierkante tabellen (als het aantal rijen gelijk is aan het aantal kolommen). Het verschil met Gamma is dat Kendall’s tau-b zowel op de variabele y als op de variabele x knoopt. Tau-b is altijd lager dan Gamma, want het houdt met meer dingen rekening (ook de geknoopte paren op de variabele x) en geeft dus meer informatie dan Gamma. De Kendall’s tau-b is ook handig wanneer je meerdere correlaties (samenhangen) tegelijkertijd wilt berekenen.

 

Kendall’s tau-b in formule:

In de noemer zijn ook de geknoopte paren op de variabele x opgenomen, en bij de noemer moet je nu wortel trekken.

 

Spearman’s Rho is een rangcorrelatiecoëfficiënt. Niet gebaseerd op een kruistabel, maar op de datamatrix. Deze maat gebruik je voornamelijk als je extreme waarden in je tabel hebt. Om Spearman’s Rho te berekenen, geef je rangnummers aan de twee variabelen, waarbij de waarden van de variabelen een rangnummer krijgen van 1 tot n. Vervolgens bereken je per onderzoekseenheid het verschil tussen de rangnummers van de twee variabelen.

 

Spearman’s Rho in formule:

D staat voor difference ⇒ het verschil tussen de rangnummers van de twee variabelen per onderzoekseenheid. Om Spearman’s Rho te berekenen, hoef je alleen d te berekenen en n te weten, en die in de formule in te vullen.

[SPSS uitleg]

 

Hoorcollege 5B

Lambda en Goodman & Kruskals Tau zijn nominale associatiematen die je gebruikt als er een asymmetrische relatie is tussen variabelen. Beide zijn gebaseerd op het aantal voorspellingsverbeteringen: in hoeverre kan de waarde van de afhankelijke variabele (y) voorspeld worden aan de hand van de waarde van de onafhankelijke variabele (x)? Beide associatiematen variëren van 0 tot 1.

De formule voor beide maten is:

 

Volgt nog

 

E1 is het aantal voorspellingsfouten als je alleen afgaat op de informatie over de y variabele.

E2 is het aantal voorspellingsfouten als je ook rekening houdt met de x variabele. Het verschil tussen een voorspelling en de waargenomen waarde noemen we de voorspellingsfout. E1 is altijd hoger dan E2, want lambda en Goodman & Kruskals tau zijn altijd positief.

 

Bij de lambda kijken we naar het aantal voorspellingsfouten gebaseerd op de modus (de dichts bezette klasse). E1= n- fMo(y). fMo(y) is de frequentie van de modus van y. Je trekt dus de frequentie van de modus van y af van het totaal aantal waarnemingen. E2= n- ΣfMo(y)kx. ΣfMo(y)kx is de som van de frequenties van de modus van y voor elke waarde (1 t/m k) van x. Je kijkt dus per kolom wat de hoogste waarde is en telt die waardes bij elkaar op. (Voor voorbeelden, zie PowerPoint.) Bij lambda geeft SPSS ook altijd drie waarden in de tabel, want SPSS weet niet welke variabele de afhankelijke is en welke de onafhankelijke. Bij lambda mag je bij de interpretatie als enige spreken van percentages.

 

Goodman & Kruskals tau is niet gebaseerd op de modus, maar op alle waarden in de kruistabel. E1 is hierbij het aantal voorspellingsfouten als je alleen afgaat op de verdeling over de y variabele. E2 is hier het aantal voorspellingsfouten als je ook rekening houdt met x. (Voor voorbeelden, zie PowerPoint.)

 

Het verschil tussen lambda en Goodman & Kruskals tau is dat Goodman & Kruskals tau veel nauwkeuriger is. Deze maat houdt namelijk rekening met alle waarden in de kruistabel, en niet met alleen de modus. Beide maten vallen laag uit. Als je op het tentamen mag kiezen, bereken dan met lambda, dat is makkelijker.

 

Hoorcollege 6B

Hoofdstuk 6

Een spurieus verband is een schijnverband waarbij een eerder gevonden verband tussen twee variabelen (x en y) verdwijnt wanneer gecontroleerd wordt door een derde variabele (z). Antecedent betekent dat wat er aan vooraf gaat. Er is dan een andere variabele die beide variabelen beïnvloedt. Een antecedente variabele is dus een variabele die in de tijd voorafgaat aan de andere twee variabelen. Een interveniërende variabele is een derde variabele (z) die tussen het eerder gevonden verband tussen twee variabelen (x en y) staat. Er is dan dus geen direct verband tussen x en y, maar dit verband loopt via variabele z. Antecedente variabelen en interveniërende variabelen kunnen een spurieus verband veroorzaken.

Bij specificatie/interactie wordt een verband tussen twee variabelen gespecificeerd door een derde variabele toe te voegen. Voorbeeld: Het effect van film kijken op emotie kan voor mannen anders zijn dan voor vrouwen. Het interactie-effect is het gezamenlijke effect van twee variabelen op de afhankelijke variabele. Een vorm van specificatie/interactie is een versluiering/onderdrukking. Een versluiering of onderdrukking is als er eerst geen verband lijkt te zijn tussen twee variabelen, maar als er een derde mediërende variabele aan toegevoegd wordt, blijkt er wel een verband te zijn. Het verschil tussen de sterkte van de verbanden vóór en na toevoeging van de derde variabele moet minimaal 0.1 zijn om te kunnen zeggen dat er sprake is van specificatie.

[SPSS uitleg]

Een index is een samengestelde scoreschaal. Een additieve indexscore maak je alleen maar van numerieke meetniveaus: ratio en interval. Een schaal is altijd een gemiddelde schaal.

 

Hoofdstuk 8

Eta Kwadraat (η2) is een associatiemaat die je gebruikt bij een onafhankelijke variabele die nominaal (categorisch) is en een afhankelijke variabele die altijd ratio of interval (numeriek) is. Eta Kwadraat bereken je met de formule (E1-E2)/E1. Hierbij staat E1 weer voor het aantal voorspellingsfouten als je alleen afgaat op de verdeling over de y variabele en E2 voor het aantal voorspellingsfouten als je ook rekening houdt met x. We berekenen dus weer de proportie van de voorspellingsverbetering.

Om η2 te berekenen gebruik je om E1 te bepalen: de kwadratensom van de afwijkingen van het gemiddelde van de (afhankelijke) variabele y. Per persoon trek je de gemiddelde waarde van de geobserveerde waarde af, en die score kwadrateer je.

E2 is hierbij de kwadratensom van de afwijkingen van het gemiddelde van de y-variabele voor iedere categorie van x. Hierbij tel je de scores op per groep. De uitkomsten van de groepen tel je bij elkaar op en dat is dan E2.

De uitkomst van η2 is de proportie van de voorspellingsverbetering. Als η2 0.2 is, kun je zeggen dat de variantie van de onafhankelijke variabele voor 20% de variantie van de afhankelijke variabele verklaart. Als je van η2 de wortel trekt, krijg je Eta (η). η geeft de sterkte van het verband aan. Bij de interpretatie van η2 geef je ook de gemiddeldes van de groepen.

[SPSS uitleg]

Een latente variabele is niet in één keer te meten. Een gemiddelde schaal is altijd interval.

 

Hoorcollege 7B

Hoofdstuk 7

Dichotome variabele: een variabele kan maar twee waarden aannemen, bijvoorbeeld geslacht (man of vrouw). Je kunt van een variabele een dichotome variabele maken door de nadruk te leggen op het wel of niet aanwezig zijn van een kenmerk. Hierbij krijgt de ene waarde een 0 en de andere waarde een 1. Wel een vrouw zijn = 1, niet een vrouw zijn is 0. Hierdoor kun je met de variabele rekenen op rationiveau. We noemen hem echter nog steeds een nominale variabele!

[SPSS uitleg]

Zet nooit een SPSS tabel in een tekst. Maak een eigen tabel bij de gegevens.

Tau, lambda, Eta en R2 zijn alle vier gebaseerd op de proportie voorspellingsverbetering. Tau en lambda gebruik je bij een categorisch meetniveau en R2 bij een numeriek meetniveau. Eta gebruik je als je een categorische onafhankelijke variabele hebt en een numerieke afhankelijke variabele.

Pearson productmomentcorrelatiecoëfficiënt (r) is een associatiemaat op interval- en rationiveau (numeriek). Deze associatiemaat wordt gebruikt voor het berekenen van symmetrische relaties. De maat varieert tussen de -1 (perfecte negatieve samenhang) en de 1 (perfecte positieve samenhang). Hij is gebaseerd op het verschil tussen de werkelijke waarden en het rekenkundig gemiddelde van twee variabelen. De spreiding van de gegevens kun je zien in een spreidingsdiagram. In de spreidingsdiagram kun je al zien hoe groot de samenhang ongeveer is en in welke richting die gaat. Hoe kleiner de spreiding is, hoe hoger de samenhang.

De covariantie is de spreiding tussen twee variabelen. Bij een positieve covariantie scoort de ene variabele hoger als de andere variabele ook hoger scoort. Bij een negatieve covariantie scoort de ene variabele lager als de andere variabele hoger scoort.

De formule voor de covariantie:

De formule voor de standaarddeviatie was:

Met de covariantie en de standaarddeviatie kun je r uitrekenen:

Een regressieanalyse is de enige statistische analyse die een voorspelling kan meten. De regressielijn is de best passende lijn door een puntenwolk heen. Er liggen dus altijd net zoveel punten boven de lijn als onder de lijn. Het doel van een regressieanalyse is een voorspelling doen over de afhankelijke variabele (y), wanneer je de waarde van de onafhankelijke variabele (x) invult. De regressieanalyse gaat dus over het effect van x op y. De formule voor de lijn is: y = a + b (x). De a is het snijpunt met de y-as en dus de waarde van y als x 0 is. b is de regressiecoëfficiënt: de toename van de waarde van y als x met 1 toeneemt. Een regressieanalyse bestaat altijd uit drie tabellen. In de eerste tabel staat de R2: de proportie verklaarde variantie. Deze is afgeleid van de Eta, maar nu gaat het om twee variabelen. In de eerste tabel staat ook de covariantie. In de tweede tabel staat de intercept (a) (als x 0 is, is y a) en de ongestandaardiseerde regressiecoëfficiënt (b) (als x toeneemt met 1, y toeneemt/daalt met b).

R2 ( de proportie verklaarde variantie) is de mate waarin de varia(n)tie in de afhankelijke variabele verklaard wordt door de varia(n)tie in de onafhankelijke variabele. Varia(n)tie betekent hier hetzelfde als het verschil. Bijvoorbeeld: de mate waarin de verschillen in televisiekijktijd (= de variantie in televisiekijktijd) verklaard worden door de verschillen in sekse (= de variantie in sekse). De formule voor R2 is hetzelfde als die van Eta: (E1 – E2) / E1. E1 is weer het aantal voorspellingsfouten als je alleen uitgaat van y: totale variatie. E1 is dus de afstand van een waarneming t.o.v. het gemiddelde. E2 is weer het aantal voorspellingsfouten als je ook rekening houdt met x: onverklaarde variatie.

R2 in formule:

Het roodgedrukte is de E2. Om deze te berekenen moet je de y berekenen. De formule voor ŷ is:

Om deze formule in te kunnen vullen moet je a en b berekenen. a is de intercept, het snijpunt met de y-as. a geeft dus de voorspelde waarde aan van ŷ als de waarde van x nul is. De formule voor a:

b is het effect van de onafhankelijke variabele op de afhankelijke variabele. Het is de voorspelde waarde die ŷ toe- of afneemt wanneer x met één eenheid stijgt. De formule voor b:

De regressievergelijking geeft een voorspelling van ŷ wanneer je de x invult. R2 geeft de proportie verklaarde variantie aan: de mate waarin de variantie (verschillen) in de onafhankelijke variabelen de variantie (verschillen) in de afhankelijke variabele verklaart.

 

Hoorcollege 8B

Hoofdstuk 7

Bij een enkelvoudige regressieanalyse moet als een dichotome variabele in een regressieanalyse wordt opgenomen deze als 0 en 1 zijn gecodeerd. De 0-categorie is de vergelijkingscategorie. De intercept (a) heeft hier betekenis: Als iemand in de 0-categorie valt, scoort diegene gemiddeld… De intercept heeft dus alleen betekenis als je een dichotome variabele hebt gebruikt. De regressiecoëfficiënt (b) is het gemiddelde verschil ten opzichte van de 0-categorie.

Standaardiseren is een variabele ontdoen van zijn meeteenheid. Om dit te doen gebruik je z-scores. De gestandaardiseerde regressiecoëfficiënt noemen we Beta en duiden we aan met b*. De ongestandaardiseerde regressiecoëfficiënt (b) is afhankelijk van hoe we x meten. We kunnen leeftijd bijvoorbeeld in jaren en in maanden meten. Dit is onhandig als je meerdere variabelen wilt vergelijken. Je kunt de ongestandaardiseerde regressiecoëfficiënt zo omzetten dat deze gestandaardiseerd wordt. Omdat b dan gestandaardiseerd is tot Beta, neemt Beta bijna altijd een waarde aan tussen de -1 en de 1, zodat we hem kunnen interpreteren als een associatiemaat. Beta is het zuivere effect van x op y.

Bij een enkelvoudige regressieanalyse zijn de Beta en de R aan elkaar gelijk. Je kunt dus gewoon de wortel trekken van R2. Er wordt alleen geen rekening gehouden met + en 1, want als je de wortel van iets trekt krijg je altijd een positief getal, terwijl het ook een negatief getal had kunnen zijn. Je kunt aan R alleen de sterkte van het verband aflezen, niet de richting. Dus: bij een enkelvoudige regressieanalyse (= één onafhankelijke variabele) is |r| = R = |Beta. Bij een enkelvoudige regressie kan de richting alleen worden afgelezen door naar Beta te kijken.

Een meervoudige regressieanalyse is als je niet één maar meerdere onafhankelijke variabelen hebt. Er is dan nog steeds maar één intercept, maar meerdere lijnen met eigen ongestandaardiseerde regressiecoëfficiënten.

ŷ = a + b1x1 + b2x2 +b3x3

b1 geeft het effect van x1 op y weer onder constant houding van x2 en x3. Beta geeft het zuivere effect op y aan. Aan Beta kun je zien welke variabele het sterkste effect heeft op de afhankelijke variabele. Het maakt dan niet uit of het effect positief of negatief is, het gaat om de sterkte. Bij beschrijving van een dichotome variabele gebruik je de woorden ‘gemiddeld’. Bij R2 zie je hoe veel de variantie in de afhankelijke variabele verklaard wordt door de variantie in de onafhankelijke variabelen samen.

Op de practicumtoets is de eerste vraag een schaalconstructie (factoranalyse en betrouwbaarheidsanalyse). De tweede vraag is een bivariate analyse van óf een kruistabel met associatiemaat, óf van Eta, óf van een correlatie óf van een enkelvoudige regressieanalyse. De derde vraag is een meervoudige analyse met óf kruistabel met tabelsplitsing óf een meervoudige regressie.

Bij een practicumvraag zijn de eerste vier stappen. Stap 1: hoeveel variabelen zijn er? Stap 2: wat is het meetniveau van de variabelen? Stap 3: bewerken van je gegevens. Je haalt bijvoorbeeld ‘missing’ of ‘niet van toepassing’ als antwoordmogelijkheden uit de gegevens. Stap 4: Bedenk welke associatiemaat het meest geschikt is. Dan ga je pas verder met de vragen. Aan het eind van de vraag lever je je Syntax in. Bij alles wat je doet, schrijf je in Syntax een toelichting. Begin de tekst met een * en eindig met een punt!

 

Hoorcollege 9B

Hoofdstuk 9 en 10

Betrouwbaarheid is de mate waarin de meting vrij is van toevallige fouten. Ook wel: de mate waarin meerdere onafhankelijke metingen van hetzelfde fenomeen bij dezelfde onderzoekseenheden dezelfde resultaten opleveren.

Stabiliteit: als een zelfde meting op dezelfde manier wordt herhaald bij dezelfde onderzoekseenheden en de resultaten zijn (nagenoeg) identiek dan is de meting stabiel/betrouwbaar. Een nadeel van het meten van stabiliteit is dat er een leereffect kan optreden. Om de stabiliteit te meten, kun je een test-hertest of een intracodeurtest doen.

Equivalentie: als bij dezelfde onderzoekseenheden eenzelfde verschijnsel op twee manieren wordt gemeten en de resultaten zijn (nagenoeg) identiek dan zijn de metingen equivalent/betrouwbaar. Stabiliteit en equivalentie kunnen beiden worden gemeten in maten van overeenstemming. De maat is afhankelijk van het meetniveau van je variabelen. Bij nominale variabelen kun je het overeenstemmingspercentage of Kappa of Krippendorfs alfa berekenen. Bij ordinale variabelen kun je Kendalls tau-b of Spearmans rho berekenen. Bij interval/ratio variabelen kun je de Pearson productmomentcorrelatie berekenen.

Interne consistentie: als een begrip/verschijnsel door middel van verschillende metingen wordt vastgesteld en die metingen hebben een grote mate van overeenstemming dan zijn die metingen intern consistent/betrouwbaar. Afzonderlijke metingen (variabelen) zijn dan vaak gericht op een enkel aspect van het verschijnsel.

Als we de betrouwbaarheid van een schaal meten, doen we dat met de Cronbachs alpha (α). Deze maat meet de interne consistentie van de schaal. Als Cronbachs alpha tussen de 0,0 en de 0,60 ligt, is de schaal niet betrouwbaar. Als de schaal tusen de 0,6 en de 0,8 ligt, is de schaal redelijk betrouwbaar. Als de schaal boven de 0,8 ligt, is de schaal betrouwbaar.

Gemiddelde correlatie berekenen:

k = aantal items

= gemiddelde correlatie Om de gemiddelde correlatie te berekenen, tel je de correlaties op en deel je door het aantal correlaties. Dan kun je die in de formule invullen.

De interne validiteit houdt in dat de afhankelijke variabele daadwerkelijk wordt beïnvloed door de onafhankelijke variabele. De conclusie over het causale verband moet dus kloppen. De externe validiteit houdt in dat je de conclusies kunt generaliseren naar de populatie? Bij de validiteit van de mening gaat het erom dat je hebt gemeten wat je wilde meten.

We onderscheiden manifeste en latente variabelen. Manifest betekent dat wat je direct kunt waarnemen. Manifeste variabelen noemen we ook wel concrete variabelen. Concrete variabelen zijn vaak makkelijk te meten, bijvoorbeeld de leeftijd of het geslacht van een respondent. Latent betekent dat wat eronder ligt, wat je niet direct kunt meten. Latente variabelen noemen we ook wel abstract. Abstracte variabelen zijn vaak moeilijk te meten, bijvoorbeeld houdingen, meningen en voorkeuren van een respondent. Een latente/abstracte variabele is complex: het is vaak een samengesteld begrip. Een latente/abstracte variabele wordt ook wel een construct genoemd.

Een schaal is een aantal indicatoren (items) waarmee eenheden een score krijgen op een abstract, complex kenmerk (latente variabele). Een antwoordschaal bevat keuzemogelijkheden voor antwoorden op één enquêtevraag (item). Bijv. ‘zeer oneens’ (1) … ‘zeer eens’ (7). Een index is een samengestelde meting van een concreet (direct waarneembaar) begrip. Bijv. totale kijktijd televisie per week.

Voor het maken van een schaal moeten de variabelen op dezelfde schaal gemeten zijn. Een schaalvariabele is een nieuwe variabele met de gemiddelde score van de respondent op de vier items. Als deze vier items samen een variabele zouden meten, zouden de items met elkaar moeten correleren.

De validiteit van abstracte en/of complexe begrippen nagaan d.m.v. een factoranalyse. Een abstract/complex begrip wordt ook wel een latente variabele, of factor, of component of construct of dimensie genoemd. Deze factor bestaat uit verschillende manifeste variabelen die samenhangen met deze factor. Deze worden ook wel items of indicatoren genoemd. Je hoopt dat de items zo goed mogelijk met elkaar correleren (samenhangen), zodat je ze samen mag voegen in een schaal. De correlaties tussen de factor en de items noem je factorladingen. Het kwadraat van zo’n factorlading is de verklaarde variantie.

Het doel van een factoranalyse is nagaan of verschillende items (indicatoren) een gemeenschappelijke oorzaak (latente variabele) kunnen hebben. Die gemeenschappelijke oorzaak moeten we afleiden uit de correlaties tussen de items. Een factoranalyse is een soort omgekeerde meervoudige regressieanalyse: er is één onafhankelijke variabele (de latente variabele) met verschillende afhankelijke variabelen (de items). De latente variabele bepaalt hoe hoog wordt gescoord op de verschillende items. Een factoranalyse kiest de ‘regressiecoëfficiënten’ (factorladingen) zo, dat de correlaties tussen de items zo goed mogelijk ‘voorspeld’ worden door de factor (latente variabele). De factorlading is te interpreteren als de correlatiecoëfficiënt tussen een factor en een item. Factorladingen variëren daarom ook tussen de -1 en +1.

De gemeenschappelijke variantie is de variantie die een bepaalde variabele gemeen heeft met alle andere variabelen. Bij twee variabelen noemen we dat covariantie: de mate waarin respondenten die hoog scoren op de ene variabele, ook hoog of juist laag scoren op de andere variabele. De specifieke variantie is de variantie die alleen door die variabele gemeten kan worden. De foutenvariantie is de toevallige variantie die veroorzaakt wordt door meetfouten. Je weet niet of een variantie een specifieke variantie is of een foutenvariantie. Je hoopt altijd op een zo groot mogelijke gemeenschappelijke variantie. De totale verklaarde variantie is alle itemvariantie bij elkaar opgeteld. Het is dus het percentage verklaarde variantie in alle items dat één factor verklaart. De totale verklaarde variantie bereken je door alle itemvariantie bij elkaar op te trekken en te delen door het aantal items.

De eigenwaarde is de som van alle proporties itemvarianties die één factor verklaart (‘dekt’). De vraag bij de eigenwaarde van een factor is of de factor meer variantie verklaart dan een los item. M.a.w.: hoe informatief is de factor? De eigenwaarde varieert tussen de 0 en het aantal items. Als de items absoluut niet samenhangen, heb je een eigenwaarde van 0. De eigenwaarde moet groter zijn dan 1 om voldoende informatief te zijn (om een factor te kunnen vormen). Dit noem je het criterium van Kaiser.

Hoe hoger de correlaties tussen alle items, hoe hoger de gemeenschappelijke variantie.

De gemeenschappelijke variantie noem je ook wel de totale verklaarde variantie.

De variantie die niet verklaard wordt door de factor is de specifieke of foutenvariantie.

Om te kijken of de factor wel informatief genoeg is kijken we naar de eigenwaarde van de factor. Deze moet groter zijn dan 1.

Als de items niet meten wat je wilde meten, is je meting niet valide. Er zijn dan net zoveel factoren als items. Je moet dan kiezen voor een uitputtende oplossing; je kunt niet de items samenvoegen tot een schaal, en zult alle items los mee moeten nemen in je analyes. Items zijn dan los informatiever dan wanneer ze samen worden gevoegd in een schaal.

 

Hoorcollege 10B

Hoofdstuk 9 en 10

Je voert een factoranayse uit om na te gaan of de schaal valide is. Je voert een betrouwbaarheidanalyse uit om na te gaan of de schaal betrouwbaar is.

Een latente variabele is niet in een keer te meten, want het is een abstract, onderliggend begrip. Om deze variabele te meten stel je meerdere vragen om de kijken of mensen de latente eigenschap bezitten. Omdat mensen die latente eigenschap bezitten, zullen ze op een bepaalde manier op de vragen in de vragenlijst scoren.

Het maken van een schaalconstructie doe je om na te gaan of je een valide meting hebt. Het eerste doel van een schaalconstructie is validering door meervoudige meting. Bij validering door meervoudige meting probeer je verschillende aspecten van een latente variabele te dekken door verschillende variabelen (items) te meten en na te gaan of variabelen (items) inderdaad voldoende hetzelfde meten. Als je meer dan één vraag stelt, heb je meer kans dat je een valide meting hebt. De schaal wordt daardoor meer valide. Een tweede doel is een preciezere meting: meer genuanceerde verschillen tussen (scores van) respondenten wanneer je scores op verschillende variabelen (items) combineert. Samenstellen van interval/ratio schaalscore uit ordinale antwoordschalen. Mag ook bij 5-puntsschaal.

Bij datareductie vervang je een hoop vragen (items) voer hetzelfde onderwerp door één of een paar nieuwe variabelen: de schaalvariabelen.

Een latente variabele wordt gevormd door meerdere manifeste variabelen. Die manifeste variabelen moeten met elkaar correleren om een factor te kunnen vormen. De latente variabele kan alleen de overeenkomsten tussen de antwoorden van de respondenten op alle items verklaren. De overeenkomsten tussen de antwoorden op alle items, heet

de gemeenschappelijke variantie (covariantie bij 2 variabelen): de mate waarin respondenten die hoger scoren op het ene item, ook hoger (of juist lager) scoren op een ander item. Een andere naam voor factoranalyse is Principale Componenten Analyse (PCA). Een factoranalyse voer je uit als je heel veel variabelen hebt, niet slechts bij twee variabelen.

Een factorlading is de correlatie tussen de factor en het item. Dit is altijd bivariaat: je vergelijkt altijd twee variabelen. Een factorlading kan worden geïnterpreteerd als een correlatie. Deze hoef je nooit met de hand uit te rekenen. Als je deze factorladingen kwadrateert, krijg je de verklaarde variantie van dat item.

De totale verklaarde variantie laat zien hoe goed de factor alle items dekt. Wanneer een factor voor bijvoorbeeld 60% de variantie in de items verklaart, blijft dus 40% onverklaard. Dit noemen we het informatieverlies. Deze kun je vinden in SPSS. SPSS berekent de totale verklaarde variantie door alle verklaarde varianties per item bij elkaar op te tellen en te delen door het aantal items.

De eigenwaarde laat zien hoe informatief de factor is. Je wilt dat de items samen informatiever zijn dan één item. De eigenwaarde moet hoger zijn dan 1 (criterium van Kaiser). Je vraagt je af of het wel meerwaarde heeft als je de items samenvoegt. Je kunt de eigenwaarde ook zien aan de Scree plot aan het aantal componenten links van de knik. De maximale waarde die een eigenwaarde kan aannemen in het aantal items. De eigenwaarde wordt berekend door de proporties verklaarde variantie bij elkaar op te tellen.

Een Screeplot is een grafische weergave van het aantal componenten (= factoren, latente variabelen) die onderscheiden kunnen worden. In de Screeplot zie je op de x-as het aantal componenten. Op de y-as staat de eigenwaarde. Deze kan een maximumwaarde van het aantal items aannemen. Links boven de ‘knik’, de ‘elleboog’, zie je het aantal componenten. De betrouwbaarheid wordt nagegaan aan de hand van Cronbachs α. Na het berekenen van de validiteit en de betrouwbaarheid ga je de schaalvariabele maken. Dit is altijd een gemiddelde schaalvariabele. Maak de schaal d.m.v. MEAN(V1,V2,V3) (scheidt de variabelen met komma’s!)

Je kijkt of alle factorladingen hoger zijn dan 0,45. Als dit het geval is, kun je je items samenvoegen tot een valide schaal. Als een schaal verkeerd om gemeten is, moet de schaal omgedraaid worden. Een schaal is omgekeerd als er een – voor staat. Je moet hem alleen hercoderen als de factorlading hoog genoeg is.

Als je meer dan één factor hebt, heb je een meerdimensionale schaal. Eéndimensionale schaal meet bijvoorbeeld gamemotivatie als de schaal loopt van niet tot heel erg gemotiveerd. Er is hier maar één factor (en één nieuwe schaalvariabele). Bij een meerdimensionale schaal zijn er verschillende dimensies mogelijk, bijvoorbeeld. verschillende soorten motieven. Je hebt dan bijvoorbeeld het prestatiemotief (items: ‘ik game om beter te worden’, ‘ik game om mijn score te verbeteren’), het sociaal motief (items: ‘ik game om te communiceren’, ‘als ik game ga ik me beter voelen’), etc. Verschillende motieven wegen niet bij iedereen even zwaar.

Het middelste gedeelte van de overlap tussen items vormt de eerste factor (de gemeenschappelijke variantie van de eerste factor). Voor de tweede factor nemen we alle gebieden die daarna het meest worden overlapt. De eerste factor verklaart dus altijd meer dan de tweede factor! Hieruit kunnen weer factorladingen worden berekend. Bij vier items wordt op deze manier steeds naar de volgende overlap gezocht, totdat alle gemeenschappelijke variantie gedekt is.

Met evenveel factoren als items kun je altijd alle variantie van de items ‘dekken’. Dit is een uitputtende oplossing. Hierbij heb je geen gemeenschappelijke factoren. Daarom streven we naar een zuinige oplossing: met zo weinig mogelijk factoren, zoveel mogelijk variantie van de items ‘dekken’. Je wilt zo weinig mogelijk factoren maken met zo veel mogelijk items. Hoe meer factoren je hebt, hoe uitputtender je schaal wordt.

De eerste factor dekt zoveel mogelijk variatie in alle items, de tweede factor kiest wat er daarna overblijft in alle items. Er is meestal geen duidelijk patroon dat sommige items bij de ene factor horen en andere items bij de andere factor. Dit is wel het uitgangspunt: sommige items meten samen het ene deelaspect (dimensie) van de houding of opvatting, andere

items meten een ander deelaspect. De varimaxrotatie zorgt ervoor dat je duidelijker ziet bij welke factor een item hoort. Het doel is dat een item zo hoog mogelijk op de ene factor scoort en zo hoog mogelijk op een andere factor. Dit doen we door de items te roteren.

Bij een factoranalyse kijk je eerst naar hoeveel componenten worden onderscheden. Dit kun je zien aan of de eigenwaarde hoger dan 1 en aan de knik in de screeplot. Dan kijk je naar de verklaarde variantie: of die per component, of naar de totale verklaarde variantie. Zijn de factorladingen van één component allemaal boven de |.45| en zijn ze allemaal positief? Als ze niet positief zijn, moet je e hercoderen. Vermeld dat hoe hoger op deze factor wordt gescoord, hoe hoger (of lager, afhankelijk van values) op dat component wordt gescoord. Je kunt ervan uitgaan dat dit component een valide meting is. Of het betrouwbaar is moet blijken uit Cronbachs α.

Image  Image  Image  Image

Access: 
Public

Image

Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why would you use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Statistics
1609