Image

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

VU - Geneeskunde - blok 3.2.4. - Professionele Ontwikkeling en Wetenschap - Verplichte stof - Deel 1

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.

Inleiding in de toegepaste biostatistiek - Algemene inleiding (H1, leesstof)

De toegepaste statistiek (analyse) wordt gebruikt om de wetenschappelijke vraag te beantwoorden. Het antwoord wordt verfijnd door middel van het kwantificeren van de onbetrouwbaarheid van het gevonden resultaat, in de vertaalslag naar de populatie waarvoor het onderzoek bedoeld is. De volgende stap is de klinische relevantie bepalen, hierin speelt statistiek geen rol.

Onderzoeksvormen

Bij verschillende onderzoeksvormen worden verschillende effectmaten en statistische analyses uitgevoerd. Er is observationeel en experimenteel onderzoek.

Observationeel

  1. Case control onderzoek: retrospectief. Een groep patiënten met een aandoening wordt vergeleken met een vergelijkbare maar gezonde controlegroep.

  2. Cohort onderzoek: retrospectief, transversaal of cross sectioneel (op het moment) en prospectief (volgen over de tijd). Van een groep mensen verzamelt men informatie.

Experimenteel

  • Experimenteel onderzoek is altijd een prospectief cohort onderzoek, waarbij er een interventie en een controle groep wordt gecreëerd.

Variabelen

Voor statistische analyse zijn het onderzoeksdesign en de eigenschappen van de uitkomst variabele belangrijk.

De uitkomstvariabele (afhankelijke variabele) is de variabele waarover je een uitspraak wilt doen.

De onafhankelijke variabelen zijn de determinanten, ook wel: verklarende variabele, voorspellers, predictoren, covariates.

Een continue variabele kan alle mogelijke waarden aannemen.

Een dichotome variabele kan maar twee waarden aannemen: wel of niet.

Een categoriale variabele bevat meerdere groepen van waarden. Deze groepen kunnen ordinaal (een logische volgorde in de groepen) of nominaal (geen logische volgorde in de groepen) zijn.

Soorten statistiek

Er zijn twee soorten statistiek: beschrijvende statistiek en verklarende statistiek.

Beschrijvende (descriptieve) statistiek: overzichtelijk samenvatten van de onderzoeksgegevens, zonder te kijken naar mogelijke verbanden of relaties tussen de variabelen.

Verklarende (inferentiële) statistiek: schatten van effecten en relaties, de betrouwbaarheid van deze effecten en relaties, en het berekenen van p-waarden.

Inleiding in de toegepaste biostatistiek - Descriptieve statistiek (H2, leesstof)

Het doel van beschrijvende statistiek is het samenvatten van onderzoeksgegevens op een overzichtelijke manier. Dit kan grafisch of numeriek, afhankelijk van het doel van de samenvatting. Het voordeel van numeriek is dat de informatie compacter en preciezer kan worden weergegeven.

Grafisch

  • Continue variabelen: histogram, stem and leaf-plot.

  • Dichotome en categoriale variabelen: staafdiagram, taartdiagram.

Figuur 1.1 Histogram (continue), zie bijlage.

Stem and leaf-plot (continu)

Voorbeeld: leeftijd van een groep

Frequency

Stem and leaf

 

2,00

1. 88

2 personen van 18 jaar

9,00

2. 111233444

9 personen, 3 van 21 jaar, 1 van 22 jaar, 2 van 23 jaar, 3 van 24 jaar

6,00

3. 145667

6 personen, 1 van 31 jaar, 1 van 34 jaar, 1 van 35 jaar, 2 van 36 jaar, 1 van 37 jaar

In de eerste kolom staan de frequenties per rij. In de tweede kolom staat voor de punt het tiental (stem) en achter de punt de eenheden (leaf).

Figuur 1.2 Staafdiagram (dichotoom/categoriaal), zie bijlage.

Figuur 1.3 Taartdiagram (dichotoom/categoriaal), zie bijlage

Elk vlak in het taartdiagram staat voor een categorie. De grootte van de taartpunt staat voor het aandeel van de categorie (in percentages). In SPSS geef je weer elke categorie een code.

Numeriek

  • Dichotome en categoriale variabelen: frequentietabel

  • Continue variabelen: samenvattingsmaten (gemiddelde, standaarddeviatie, aantallen, percentielpunten)

Frequentietabel (dichotoom/categoriaal)

In een frequentietabel worden de aantal in de groepen en de percentages hiervan laten zien.

 

Frequency

Percent

Valid percent

Cumulative percent

Vrouw

53

53

53

53

Man

47

47

47

100

Total

100

100

100

 

Frequency = aantal binnen een groep.

Percent = aandeel van de groep over het totaal.

Valid percent = de missende waarden worden niet meegenomen.

Cumulative percent = de opgetelde percentages.

Samenvattingsmaten (continu)

Formule 1.1 Gemiddelde (mean), zie bijlage.

x met het dakje is het gemiddelde. n is het aantal personen in de onderzoekspopulatie. Xi is de waarde van variabele x voor persoon i.

Standaarddeviatie (sd of s).

De standaarddeviatie zegt iets over de spreiding van de waarden. De spreiding is belangrijk bij statistische analyses. De standaarddeviatie is het gemiddelde verschil tussen de observaties en het gemiddelde. Sommige waarden zijn kleiner dan het gemiddelde, anderen groter. Het gemiddelde verschil tussen de afzonderlijke waardes en het gemiddelde is daarom altijd nul. Om een getal te krijgen voor de standaarddeviatie moet je een omweg nemen. Eerst kwadrateer je de verschillen ten opzichte van het gemiddelde. Dit noem je de variantie: s2. Vervolgens neem je van de variantie de wortel, dit is de standaarddeviatie.

Formule 1.2 variantie, zie bijlage.

s2 is de variantie. Het ingewikkelde boven de streep komt neer op: de som van de individuele verschillen ten opzichte van het gemiddelde, in het kwadraat.

Rekenvoorbeeld: 5 personen met de leeftijden 40, 41, 42, 43 en 44 jaar.

  • Gemiddelde: (40+41+42+43+44)/5= 42 jaar.

  • De som van de individuele verschillen ten opzichte van het gemiddelde: { (40-42)2 + (41-42)2 + (42-42)2 + (43-42)2 + (44-42)2 } = 10

  • De hele formule: 10/(n-1) = 10/(5-1) = 10/4 = 2,5 = s2.

Formule 1.3 standaarddeviatie, zie bijlage:

Rekenvoorbeeld: √(s2) = √(2,5) = 1,58.

Samenvattingsmaten in een SPSS tabel:

 

N

Minimum

Maximum

Mean

Std. Deviation

Variabele

100

19

82

41,67

14,620

Valid N

100

 

 

 

 

In de praktijk worden alleen het gemiddelde en de standaarddeviatie gemeld.

Percentielpunten

Percentielpunten zijn het punt waarvan een bepaald percentage van de waarden boven en onder dit punt ligt. De mediaan is het 50ste percentielpunt: 50% van de waarden ligt boven en 50% ligt onder deze waarde (als de waarden van laag naar hoog zijn geordend). In hoeverre de mediaan dezelfde waarde heeft als het gemiddelde, heeft te maken met de symmetrie van de verdeling.

Daarnaast worden het 25ste en 75ste percentielpunt gebruikt. Bij het 25ste percentielpunt ligt 25% van de waarden onder en 75% boven dit punt. Bij het 75ste percentielpunt is dit andersom. Ook dit kan in een tabel worden samengevat.

Figuur 1.4 Box-plot, zie bijlage.

Een box-plot is een combinatie van numeriek (waarden) en grafisch (figuur). Een box-plot bestaat uit twee delen: de box en de whiskers. De box heeft grenzen van het 25ste (onderste) en 75ste (bovenste) percentielpunten. De streep in de box is de mediaan. De whiskers zijn de twee strepen onder en boven de box. In SPSS geven deze respectievelijk de minimale en maximale waarde aan. De uitbijters worden niet meegenomen: waarden die meer dan anderhalf maal de boxhoogte afwijken van de boven- en of ondergrens van de box. Met een box-plot kan de symmetrie van de verdeling meteen gezien worden aan de hand van de lengten van de whiskers en de box-verdelingen.

Normaal verdeling

Alle statistische technieken voor de analyse van continue waarden, gaan ervan uit dat de waarden ongeveer normaal verdeeld zijn. Een van de eerste stappen is dus bepalen of de waarden normaal verdeeld zijn.

Figuur 1.5 Normaalverdeling, zie bijlage.

De observaties zijn symmetrisch verdeeld rond het gemiddelde. De mediaan is dan gelijk aan het gemiddelde (median = mean). 95% van de observaties ligt tussen het gemiddelde en +/- 2 standaarddeviaties. Deze eigenschap kan alleen gebruikt worden als de variabele alleen positieve waarden heeft. Een continue variabele met alleen positieve waarden en een standaarddeviatie die ongeveer even groot is als het gemiddelde, kan nooit normaal verdeeld zijn. het gemiddelde en de standaarddeviatie worden alleen gegeven bij een normale verdeling.

Hoe bepaal je of een verdeling normaal is?

  • Observeren histogram

  • Vergelijken gemiddelde en mediaan

  • Vergelijken gemiddelde en standaarddeviatie (bij alleen positieve waarden)

Scheve verdelingen kunnen naar rechts (skewed tot the right of positively skewed) of naar links (skewed to the left of negatively skewed) zijn.

Scheef naar rechts

Figuur 1.6 Scheef naar rechts, zie bijlage.

Scheef naar rechts komt veel vaker voor naar links. Het merendeel van de populatie heeft normale waarden, maar een deel hele hoge waarden. Hierdoor is het gemiddelde groter dan de mediaan (gemiddelde rechts ten opzichte van de mediaan). Je geeft dan ook de mediaan en de 25ste en 75ste percentielpunten.

Scheef naar links

Figuur 1.7 Scheef naar links, zie bijlage.

Dit ontstaat vaak bij een bepaalde tijdsduur. Er zijn hele lage waarden, dus het gemiddelde zal kleiner zijn dan de mediaan (links). Wederom geef je dan alleen de mediaan en de 25ste en 75ste percentielpunten.

Inleiding in de toegepaste biostatistiek - Principes van de verklarende statistiek (H3)

Bij een gerandomiseerde steekproef van pijn bij patiënten voor en na toediening van een pijnstiller, kun je zonder ingewikkelde statistiek de resultaten voor en na de medicatie en de standaarddeviatie invullen. Dit mag natuurlijk, maar je moet je daarna wel afvragen of de resultaten wel gelden voor de doelgroep van het onderzoek (is de steekproef wel representatief?) Om de generaliseerdbaarheid te meten, moet verdere statistiek worden gebruikt.

Bij de verklarende statistiek spelen schatten (in hoeverre zijn de resultaten representatief voor de doelpopulatie en de toekomstige doelpopulatie?) en toetsen (kansberekening) een grote rol. De onzekerheid van de generalisatie staat bij beide voorop. Als eerste geldt hier: hoe groter de steekproef, hoe beter de generaliseerbaarheid. Ten tweede geldt: hoe groter de heterogeniteit (weergegeven in de standaarddeviatie), hoe slechter het te generaliseren is. Deze twee dingen komen samen in de standard error of the mean (sem), zie formule 3.1 in de bijlage.

Kansen en –verdelingen

Kans bereken je door 1 gedeeld door het aantal mogelijkheden te doen. Als je de kans wilt weten van het krijgen van het één OF het ander, tel je de kansen bij elkaar op.

Een kansverdeling is de theoretische kans op verschillende uitkomsten in een situatie. Als er maar twee mogelijke uitkomsten zijn, zoals bij een munt, dan heet het een binomiale kansverdeling. Ook als er meerdere uitkomsten zijn, maar je bent maar benieuwd naar één, is er een binomiale verdeling. Denk aan de kans om 6 te gooien met de dobbelsteen: Er is een kans op 6, en een kans op niet-6.

De algemene formule voor kansverdeling is: zie formule 3.2 in de bijlage. Zo kun je gemakkelijk ook met situaties met meer dan twee mogelijkheden rekenen.

Tegelijk kan je ook een verwachtingswaarde voor een bepaalde kans uitrekenen. Dit doe je door de kans op een bepaalde uitkomst te vermenigvuldigen met de hoeveelheid keren dat de situatie zich voordoet. Als je een dobbelsteen 100 keer gooit, vermenigvuldig je de kans op zes gooien met 100, en verwacht je dus 16,7 keer 6 te gooien. Het is een soort gemiddelde van de kansverdeling, en daarom is er ook een sd bij een binomiale kansverdeling: zie formule 3.3 in de bijlage.

Een normale kansverdeling is een kansverdeling met continue variabelen, bijvoorbeeld de verdeling van het BMI bij mannen. De kans op een continue variabele is altijd 0, want er zijn dan oneindig variabelen (kans=1/mogelijkheden en 1/oneindig=0). We rekenen dan met kansdichtheden: de kans dat iets groter, of kleiner is dan de waarde die je zoekt. Dit kun je uitzetten in de normale kansverdeling. De eigenschappen hiervan zijn: hij is symmetrisch, heeft 1 top, de x-as is oneindig, de y-as geeft de kansdichtheid¸ de totale oppervlakte is 1 (100%), en de parameters zijn de verwachtingswaarde (het gemiddelde) en de sd.

Een kansdichtheid berekent dus de kans dat iets groter/kleiner of gelijk is aan het getal dat je zoekt. Dit doe je in twee stappen: 1. Trek het gemiddelde af van de waarde waarnaar je zoekt en 2. Deel dit door de standaarddeviatie. Je krijgt dan een standaardnormale kansverdeling ofwel Z-verdeling. Zie formule 3.4 in de bijlage. De kans horend bij de Z-waarde kun je dan aflezen uit een tabel. Je hebt dan de kansdichtheid, ofwel de kans dat een waarde groter of gelijk is aan de waarde die je zoekt.

Toetsen en schatten van gemiddelden
Belangrijker dan kans op het vinden van een bepaalde waarde, is in het wetenschappelijk onderzoek de generaliseerbaarheid. Je kan dan het beste met de nulhypothese werken, je berekent dan de kans op bijvoorbeeld pijnvermindering (voorbeeld van begin van hoofdstuk) als de medicatie geen effect zou hebben. We zijn niet meer op zoek naar de kans op een bepaalde waarde, maar op een bepaald gemiddelde. Je moet hier weer rekenen met een Z-waarde, want pijn is een continue waarde, en met een SEM, want het gaat om gemiddelden. Zie formule 3.5 in de bijlage. Deze Z-waarde koppel je via de tabel weer aan een kans. Dit is de kans dat de nul-hypothese waar is, en wordt ook wel de p-waarde genoemd. Bij een p<0,05 is de nulhypothese verworpen en het effect van het middel significant. Het berekenen van de p-waarde heet statistisch toetsen.

Als iets statistisch niet significant is, betekent het niet dat het middel ook geen effect had! Het kan bijvoorbeeld dat er een te grote spreiding was of de onderzoekspopulatie te klein was, maar dat betekent niet dat het effect er ook niet is. Alleen de vertaalslag naar de doelpopulatie is onbetrouwbaar.

Naast statistische significantie is ook ‘power’ belangrijk, dit heeft ook te maken met het verwerpen van de nulhypothese. De p-waarde 0,05 betekent dat er nog 5% kans is dat de nulhypothese wél klopt, maar deze fout wordt voor lief genomen. Dit is een α-fout. Het kan ook dat p>0,05 is, maar dat de nulhypothese alsnog niet klopt, dit is een β-fout. De power van een onderzoek= 1-β.

Twee- en eenzijdig toetsen

Er is veel discussie over of je iets eenzijdig of tweezijdig toetst. Als je een nulhypothese hebt zoals ‘er is geen effect’, dan suggereer je dat er bij verwerping een ofwel negatief, ofwel positief effect van het middel is. Je toetst dan tweezijdig. Als je een nulhypothese hebt zoals ‘er is geen positief effect’ suggereer je dat bij verwerping alleen ‘er is een positief effect’ kan krijgen. Dit toets je eenzijdig. Voordeel is dat de p-waarde bij een eenzijdige toetsing twee keer zo klein is als bij tweezijdig toetsen. Een tweezijdige p =0,08 is dus een eenzijdige p=0,04. Eenzijdig is hij significant. Dit is een trucje. In dit boek gaat het altijd om tweezijdige toetsing, omdat het gaat om ‘frequentistische statistiek’, wat betekent dat er geen voorkennis is over de effecten van medicijnen, wat betekent dat de effecten positief of negatief kunnen zijn. Tegenhanger is de Bayesiaanse statistiek.

Schattingen

Generaliseerbaarheid toetsen kan ook door schatten. Je neemt dan het onderzoeksresultaat als uitgangspunt en bouwt daaromheen een kansverdeling, waarmee je een betrouwbaarheidsinterval maakt. Dit is het 95%-betrouwbaarheidsinterval (95%-BI). Het effect van het medicijn zal dan met 95% zekerheid tussen de twee uitgekomen getallen liggen. Je rekent met een tweezijdige Z-verdeling uit tussen welk getal het betrouwbaarheidsinterval zit. Dit is meestal -1,96 en 1,96, overeenkomend met p=0,05. Het 95%-BI wordt berekend met formule 3.6 in de bijlage.

Centrale limietstelling
We hebben gezien dat bij een continue variabele vaak een normale kansverdeling is. Het is alleen zo dat je bij een binomiale kansverdeling ook een normaalverdeling benadert als je de steekproef maar groot genoeg maakt. Dit heet centrale limietstelling, en komt erop neer dat het gemiddelde bij een grote steekproef een normale kansverdeling volgt, ongeacht de oorspronkelijke verdelingssoort van de variabele. De grootte van de steekproef die nodig is, is moeilijk te beantwoorden, omdat het een glijdende schaal is, en omdat het afhankelijk is van de oorspronkelijke soort verdeling.

Belangrijk is je te realiseren dat het gemiddelde bij een normaalverdeling niet altijd makkelijk te interpreteren is. Het is namelijk niet altijd het midden van de normaalverdeling, want als je een verdeling hebt die scheef naar rechts is, gaat het gemiddelde ook mee naar rechts. In dit soort situaties moet je andere procedures volgen, zie hoofdstuk 4.

Toetsen met behulp van het betrouwbaarheidsinterval
Zoals eerder gezegd impliceert het 95%-BI dat een waarde met 95% zekerheid tussen de twee gevonden waarden valt. Als de nulhypothese buiten deze waarden valt, is er nog maar 5% kans dat deze toch waar is. Andersom geldt dat wanneer de nulhypothese in het interval valt, de resultaten niet significant zijn.

Notatie van letters
Binnen de statistiek worden voor de onderzoekspopulatie gewone letters gebruikt en voor de doelpopulatie Griekse letters. Verder worden een hoop subscripten gebruikt die je moet kennen. Bij een z met als subscript (1-α/2) wordt een Z-score bedoeld waar (1-α/2) ervoor ligt. Als alfa dan 5% is, is Z 1,96.

De t-verdeling in de statistiek
De t-verdeling, oftewel de Studen-verdeling, is een alternatief voor de standaardnormale kansverdeling voor als de sd niet bekend is. In de doelpopulatie gaat het namelijk niet alleen om de patiënten van nu , maar ook om alle toekomstige patiënten, en dus is er geen sd van bekend. Ook bij kleine populaties bij dichotome verdelingen, wanneer de centrale limietstelling nog niet van toepassing is, mag de t-toets gebruikt worden.

De t-verdeling verschilt van de standaardnormale kansverdeling, omdat hij breder is, de grootte van het verschil is afhankelijk van de grootte van de steekproef. Afhankelijk van het aantal vrijheidsgraden, is er een grote hoeveelheid t-verdelingen. Een vrijheidsgraad is de steekproef-1. Bij een t-toets gaat het namelijk om gemiddelden. Als je het gemiddelde weet, kan je op 1 getal na alle getallen willekeurig invullen, en ligt het laatste getal vast om dat gemiddelde te maken. Alle willekeurige getallen zijn vrijheidsgetallen, en de hoeveelheid is dus steekproef-1.

Bij een t-verdeling wordt het getal 1,96 van de Z-score vervangen door een ander getal dat je uit een tabel kunt oplezen. Omdat t-verdelingen altijd breder zijn, zijn de getallen ook altijd hoger dan 1,96. Hoe groter de steekproef, hoe dichter het getal bij de 1,96 komt. Afgesproken is dat bij continue variabelen altijd een t-toets wordt gebruikt om p-waardes en 95%-BI uit te rekenen.

Inleiding in de toegepaste biostatistiek - Continue uitkomstvariabelen analyseren (H4)

Twee aspecten van het onderzoek spelen een rol bij het kwantificeren van onzekerheid, namelijk de grootte van de steekproef en de spreiding van de individuele onderzoeksresultaten (zie hoofdstuk 3). Deze komen samen in de standard error of the mean, waarmee het 95%-BI kan worden uitgerekend. Hiervoor moet je dus eerst de individuele spreiding weten! Bij bijvoorbeeld cholesterol gaat het om een continue variabele, dus moet je een t-toets gebruiken, en moeten we op zoek gaan naar de waarde die hoort bij het 95%-BI. Deze is afhankelijk van de vrijheidsgraden en de grootte van de steekproef. Het getal dat hieruit komt kun je gebruiken in de formule om de 95%-BI uit te rekenen: zie formule 4.1 in de bijlage.

De twee getallen die hier uitkomen vormen het 95%-BI. Het is dan 95% zeker dat de werkelijke verandering tussen deze waarde ligt. Je kunt dit natuurlijk ook voor de nulhypothese toetsen. De geobserveerde waarde wordt dan vergelijken met de verwachte waarde van de nulhypothese, gedeeld door de SEM: zie formule 4.2 in de bijlage.

De statistische techniek die zowel het 95%-BI, als de toets uitvoert, heet de gepaarde toets.

Vergelijken van het gemiddelde met de standaardwaarden

Stel dat je nu niet het verschil van bijvoorbeeld gemiddelde cholesterolwaarde voor en na een interventie wilt weten, maar het verschil van de gemiddelde waarde met de algemeen aangenomen standaardwaarde? Je kunt dan heel makkelijk een 95%-BI opstellen, als je in de formule voor dx het gemiddelde verschil van de standaardwaarde neemt. Verder kun je weer met een t-toets (de toetsingsgrootheid) de p-waarde uitrekenen, waarbij je dus bekijkt hoe groot de kans is dat de nulhypothese (het gemiddelde verschil is gelijk aan de standaardwaarde) waar is.

Vergelijkingen van twee verschillende groepen

Als je twee groepen wilt vergelijken, is het het handigst om met de gemiddelden van beide groepen te werken. Je ziet dan direct dat daar een verschil zit of niet, maar je moet natuurlijk weten of dit naar de populatie te vertalen is. Hiervoor heb je de SEM nodig, waarmee je dan weer het 95%-BI kunt uitrekenen. Hiervoor hebben we weer een t-verdeling nodig.

De twee groepen zullen vaak een andere standaarddeviatie hebben. Om ermee te kunnen rekenen zul je dus eerst een soort gemiddelde sd moeten hebben, ook wel de populatiestandaarddeviatie (sp): zie formule 4.3 in de bijlage. Deze formule is niets meer dan een gemiddelde van twee varianties van groepen.

De formule om hiermee het 95%-BI uit te rekenen, verandert dan ook: zie formule 4.4 in de bijlage. De interpretatie van het 95%-BI dat eruit komt, is dat we met 95% zekerheid mogen zeggen dat het echte verschil tussen de twee groepen tussen die waardes ligt.

Ook kun je er weer een t-toets op loslaten, om de nulhypothese te toetsen. Zie formule 4.5 in de bijlage.

Blijf je bedenken dat de grens van p=0,05 (kans van 5%) arbitrair is, maar ook dat de grootte van de p-waarde niets zegt over de grootte van het verschil tussen de twee groepen! Voor dit laatste heb je namelijk het effect en het 95%-BI nodig.

Daarnaast kan je pas een t-toets uitvoeren, niet alleen als er sprake is van een normaalverdeling, maar ook als beide normaalverdelingen bij benadering dezelfde vorm hebben, oftewel, als beide varianties gelijk zijn. Als dit niet zo is, moet er voordat de t-toets worden uitgevoerd, een F-toets (Levene’s test for the equality of variances) worden gedaan. Dit gebeurt in SPSS automatisch. SPSS zorgt voor een soort aangepaste t-toets: de aanpassing van Welch.

Als uit de F-toets een p>0,05 komt, dan is de nulhypothese, dat beide varianties gelijk zijn, niet verworpen en mag er dus een normale t-toets uitgevoerd worden. Mochten de varianties wel verschillen, dan worden de vrijheidsgraden en de standard error difference aangepast, waardoor de verdeling breder wordt en p-waarde hoger.

Vergelijken van twee scheef verdeelde uitkomstvariabelen

Voor een t-toets tussen twee groepen, moeten de uitkomsten enigszins normaal verdeeld zijn. Ze moeten dus niet scheef verdeeld zijn, want je vergelijkt twee gemiddelden met elkaar, en die gemiddelden worden heel erg beïnvloed, en dus veranderd, door de hogere waarden bij een scheve verdeling. De meest voorkomende scheve verdeling, is de verdeling naar rechts. Hoe kunnen we ondanks de scheve verdeling nou toch twee groepen vergelijken? Je moet dan eerst de gegevens transformeren naar een normaalverdeling, daarna het 95%-BI uitrekenen, en deze data dan weer terugtransformeren naar de oorspronkelijke data.

Als het gemiddelde groter is dan de mediaan en de sd behoorlijk groot is, dan spreek je van een scheve verdeling. Je zou denken dat je bij twee grote steekproeven door middel van centrale limietstelling de twee groepen gewoon mag vergelijken, maar bedenk dat je werkt met gemiddelden, en die zijn dus niet goed te vergelijken bij een scheve verdeling.

Je kunt de gegevens van een scheve verdeling naar rechts transformeren middels een logaritmische transformatie. Je gebruikt dan meestal een natuurlogaritme (ln). Hierop kun je dan een t-toets uitvoeren. De gegevens die daaruit komen moet je dan weer terugtransformeren met de klassieke rekenregel voor logaritmen: het verschil tussen twee logaritmen met hetzelfde grondtal is gelijk aan de logaritme van het quotiënt van de twee getallen: zie formule 4.6 in de bijlage. Van de uitkomst moet je dan de EXP nemen.

Dit is het verschil van de geometrische gemiddelden van de groep, wat niet het gewone gemiddelde is, maar een getransformeerd gemiddelde dat meer op de mediaan lijkt. Bij het transformeren van het betrouwbaarheidsinterval doe je gewoon de EXP van deze twee getallen. Hierna kan een normale t-toets worden gedaan.

Non-parametrische toetsen

Een andere manier voor het analyseren van scheve verdelingen is het gebruik van non-parametrische (verdelingsvrije) toetsen. De waarden worden dan niet zelf geobserveerd, maar er wordt een rangnummer aan gegeven die wordt getoetst. Nadeel is dat het alleen een toets is en dat je dus geen schattingen en 95%-BI kunt maken. De uitkomst van de toets is een p-waarde. Ongeacht tot welke groep de observatiewaarden horen, krijgt iedere waarde een rangnummer. Deze worden bij elkaar opgeteld, en de twee sommen worden met elkaar vergeleken, hier komt een p uit. Het heet de rangsomtoets van Wilcoxon (Mann-Whitney-toets). Er wordt een asymptotische waarde berekend van een non-parametrische toets, wat natuurlijk gek is. Het is wel mogelijk de p-waarde exact te berekenen, maar hoe groter de steekproef, hoe moeilijker. Vandaar de asymptotische waarde.

De non-parametrische toets wordt heel vaak gebruikt, maar is in grotere populaties niet nodig, vanwege de centrale limietstelling. Je kunt dan gewoon een t-toets gebruiken. Als je een gewone t-toets, een loggetransformeerde t-toets en een non-parametrische toets naast elkaar legt, zijn alle p-waarden verschillend, maar alle methoden zijn goed. Het is niet duidelijk welke p dan het beste gebruikt kan worden.

Voor twee metingen bij dezelfde persoon, bijvoorbeeld het cholesterolgehalte voor en na een interventie, is ook een non-parametrische variant beschikbaar: de rangtekentoets. Er worden hier rangnummers gegeven aan de verschillen van voor en na voor de positieve en negatieve verschillen en deze worden opgeteld. De nulhypothese zegt dat de som van de negatieve en positieve even hoog is. Als dit niet zo is, is er dus een verschil.

Het vergelijken van meerdere groepen

Bij vergelijking van meerdere groepen heeft het meer een toetsingsachtergrond en het wordt vooral in de psychologie gebruikt. De toets hiervoor heet de variantieanalyse en is een uitbreiding op de t-toets. Je gebruikt kwadratensommen; het gekwadrateerde verschil tussen de observaties van een bepaald gemiddelde. Eigenlijk moet eerst de totale kwadratensom berekend worden, het gekwadrateerde verschil tussen alle individuele observaties en het gemiddelde: zie formule 4.7 in de bijlage

Vervolgens wordt deze formule in twee deelkwadratensommen opgesplitst: de SSw, de binnengroepkwadratensom (de individuele observaties vergeleken met het groepsgemiddelde) (zie formule 4.8 in de bijlage) en de SSb, de tussengroepkwadratensom (de gemiddelden van de groepen vergelijken met het totale gemiddelde) (zie formule 4.9 in de bijlage).

Je zal deze twee kwadratensommen delen door het aantal vrijheidsgraden, waarmee je de gemiddelde kwadratensom krijgt (mean square). De verhouding tussen deze twee mean squares geeft de F-waarde, waarmee je een p-waarde kunt berekenen. Als de p significantie aangeeft, zegt dit alleen dat ergens tussen de gemeten groepen een significant verschil zit, maar niet bij welke. Je moet dan een post-hoc-procedure doen, waarbij je alle groepen per twee tegen elkaar uitzet in een t-toets. Dit doe je dus alleen als er significantie uit de kwadratensommen komt! De betrouwbaarheid wordt dan wel lager door het multiple-toetsing probleem. Hiervoor kun je corrigeren door het 95%-BI te verbreden en de bijbehorende p te verhogen. Hier zijn veel methoden voor, SPSS doet ze automatisch voor je.

Ook bij het vergelijken van meer dan twee groepen, is de aanname dat de uitkomstvariabele min of meer normaal verdeeld is. Mocht dit niet zo zijn, dan zul je ook hiervoor moeten transformeren. Je kan dan een non-parametrische toets uitvoeren, die in het geval van meerdere variabelen de Kruskall-Wallis test is.

Lineaire regressie analyse

Liniaire regressieanalyse is een methode om continue uitkomstvariabelen te analyseren. Een t-toets analyseert dichotome determinanten, een variantieanalyse categoriale (=meerdere) determinanten, maar een lineaire regressieanalyse kan alle soorten determinanten analyseren.

Als voorbeeld nemen we de relatie tussen twee continue variabelen, uitgezet in een scatterplit. Lineaire regressie moet de relatie tussen Y en X zo goed mogelijk beschrijven. Er wordt hiervoor een soort lijn gedefinieerd die de kortste verticale afstand tot alle puntjes beschrijft. Deze afstanden en de lijn zelf heten ‘residuen’.

De twee parameters die gebruikt worden in een regressieanalyse met 1 determinant (enkelvoudige regressie) zijn de intercept of constante (b0), die het kruispunt met de y-as bepaalt, en de regressiecoëfficiënt oftewel helling (b1).

De regressiecoëfficiënten worden natuurlijk met SPSS berekend, maar met de hand kan dat ook: zie formules bij 4.10 in de bijlage.

Lineaire regressie kan tussen alle determinanten, en dus ook tussen een continue en een dichotome variabele. Hierbij krijg je in een scatterplot met twee verticale strookjes met bolletjes, die voor de twee groepen staan. De lijn wordt dan door de twee gemiddelden van de groepen getrokken. De b0 is logischerwijs dan het gemiddelde van de eerste groep. B1 zal het verschil tussen de groepen aangeven. Je kunt hier de p-waarde mee berekenen door de nulhypothese af te trekken van de regressiecoëfficiënt en dat te delen door de SEM (vergelijk met t-toets!). Hier kan je dan aan de hand van de vrijheidsgraden (n-1) de p berekenen. Ook kan je met lineaire regressie een 95%-BI uitrekenen.

Je kunt ook lineaire regressie met categoriale variabelen uitrekenen. Je b0 is dan weer het gemiddelde van de eerste groep. Helaas gaat het bij lineaire regressie om het trekken van een rechte lijn, en is het vaak moeilijk om een rechte lijn te trekken door meerdere groepen heen. Je zult dan twee dichotome ‘dummyvariabelen’ aan moeten maken, zodat je wel twee groepen met elkaar kunt vergelijken. Deze twee dummy’s moeten altijd samen worden geanalyseerd: zie formule 4.11 in de bijlage.

De resultaten zijn dan het verschil in de gemiddelden tussen de twee groepen die je meet. Het is op verschillende manieren te coderen.

Bij een lineaire regressie met twee continue variabelen, wordt er een lijn getrokken door de scatterplot. Dit betekent dat per stap die je naar rechts gaat, er een vast getal bijkomt. Maar de vraag is in hoeverre dit zo is in het echt. Er zijn bij een continue variabele verschillende manieren om te onderzoeken of er wel sprake is van een lineair verband. Je kunt bijvoorbeeld kijken of er een ander verband is waar een betere p-waarde uitkomt. Zo kun je een van de variabelen kwadrateren, daar een lineaire regressie op loslaten en dan kijken of de p-waarde beter is dan je oorspronkelijke regressie. Nadeel van deze methode is dat je uitgaat van een wiskundig verband tussen de variabelen, terwijl je niet eens zeker weet of die er wel is, en dat regressiecoëfficiënten moeilijk te interpreteren zijn.

Een andere manier om te onderzoeken of er een lineair verband is, is het opdelen van je variabelen in groepen en daar dan een dummyvariabele analyse op los te laten. Aan de hand van het oplopen van de regressiecoëfficiënten, kun je dan zien of er sprake is van een lineair verband. Zo niet, dan rapporteer je volgens de dummyvariabelen, en zo wel, dan rapporteer je aan de hand van de continue variabele. Een verband is pas echt lineair als de regressiecoëfficiënten van de verschillende groepen in verhouding staan met de gemiddelde leeftijden van de dummygroepen. Nadeel van de dummymethode is overigens dat ervan wordt uitgegaan dat alle mensen in dezelfde dummygroep dezelfde variabele hebben, wat in de praktijk natuurlijk niet zo is. Je zult dus tussen de twee methodes moeten kiezen, als kiezen tussen twee kwaden.

Correlatiecoëfficiënt

Er wordt ook veel gebruik gemaakt van de gestandaardiseerde regressiecoëfficiënt: zie formule 4.12 in de bijlage

Het zorgt ervoor dat de x-as en de y-as zo worden opgerekt dat ze allebei dezelfde eenheid hebben: standaarddeviaties van de betreffende variabelen. Zo zet je dus de standaarddeviaties tegen elkaar uit. In de praktijk heet dit de Pearsson correlatiecoëfficiënt.

Je kunt ook zonder hulp van eerst een regressieanalyse te doen, een correlatiecoëfficiënt uitrekenen: zie formule 4.13 in de bijlage.

Het verschil tussen de regressielijn en de correlatiecoëfficiënt, is dat als je in een scatterplot een regressielijn trekt, die voor een hele wijd verspreide scatterplot hetzelfde kan zijn als voor een heel opeengepakte scatterplot. De correlatiecoëfficiënt houdt echter ook rekening met de afstand van alle puntjes tot de regressielijn, en dan heb je bij een wijd verspreide scatterplot dus een kleinere coëfficiënt dan bij een opeengepakte.

Variantie verklaring

De lineaire regressieanalyse geeft nog veel meer informatie. De R is de regressiecoëfficiënt, de R square geeft aan hoeveel procent van de variabele door de andere variabele wordt verklaard, de adjusted R square past dit aan wanneer er een overschatting is van de kwaliteit van het model, en de standard error of the estimate is een indicatie van hoe goed de geobserveerde punten op de geschatte regressielijn liggen.

Omdat lineaire regressie analyse en variantieanalyse dezelfde principes gebruiken (kwadratensommen), wordt bij een regressieanalyse ook altijd de output van de variantie weergegeven. De resultaten zullen precies hetzelfde zijn.

Lineaire regressie bij een niet-normaal verdeling

Als je een lineaire regressie uitvoert op een verdeling die scheef verdeeld is, doe je dat hetzelfde als bij de t-toets. Je zet het in een natuurlijk logaritme en transformeert het na de regressie weer terug.

Eigenlijk gaat het bij lineaire regressie niet om de normaliteit van de uitkomstvariabele maar om die van de residuen. Je kunt dit gemakkelijk testen door er een histogram van te maken. Zie je dat het niet normaalverdeeld is, dan kun je er een logtransformatie op loslaten. Non-parametrische technieken zijn er voor lineaire regressie niet.

Een nonparametrische correlatiecoëfficiënt.

We hebben eerder gezien dat voor een normaal verdeelde uitkomstvariabele een Pearson-correlatiecoëfficiënt gebruikt kan worden. Voor niet-normale verdelingen kun je de Spearman-correlatiecoëfficiënt gebruiken. Als er een normale verdeling is, komt hier hetzelfde getal uit.

Effectmodificatie en confounding

Een effectmodificatie betekent dat het effect/relatie anders is bij verschillende waardes van de effectmodificator. Een effect kan bijvoorbeeld anders zijn voor mannen of voor vrouwen. Confounding betekent dat het effect geheel of gedeeltelijk wordt veroorzaakt door iets anders. Je kunt lineaire regressie gebruiken om deze twee biasen op te sporen.

Om bijvoorbeeld te kijken of sekse een confounder is in een onderzoek, zul je na de eerste lineaire regressie een tweede regressie moeten uitvoeren met sexe als extra variabele. Mocht er confounding uitkomen, dan moet je uitzoeken in hoeverre dit relevant is. Er is daarvoor een grens van verandering van de regressiecoëfficiënt met 10% genomen.

Om de effectmodificatie op te sporen moet een zogenaamde interactieterm worden aangemaakt, door de determinant te vermenigvuldigen met de mogelijke effectmodificator. Daarna voer je een regressieanalyse uit. Hierna moet de grootte en het belang van de regressiecoëfficiënt bepaald worden. Dit doe je aan de hand van de p. Is de p van de interactieterm niet significant, dan is er geen effectmodificatie. Soms is er een groot verschil, maar geeft de p geen significantie aan. In sommige gevallen kan je dan op de klinische relevantie afgaan en de p verwerpen of iets ophogen.

Je kunt uit de output van de effectmodificatie lineaire regressie niet direct een 95%-BI aflezen. Je zult dan eerst opnieuw moeten coderen.

Bij het vinden van effectmodificatie bij een continue variabele, zul je weer een interactieterm moeten opstellen en dan de lineaire regressie uitvoeren. De regressiecoëfficiënt die je dan ziet, geeft weer hoeveel het verschil is in verandering per effectmodificator eenheid (bij effectmodificator leeftijd is dat dan het verschil in verandering per jaar) tussen de twee variabelen (man/vrouw, bijvoorbeeld).

Inleiding in de toegepaste biostatistiek - Dichotome uitkomsten analyseren (H5)

Bij het vergelijken van een dichotome uitkomstvariabele tussen twee groepen is de eenvoudigste manier om de resultaten te presenteren in een 2x2 tabel. In een 2x2tabel kan het verschil tussen percentages gebruikt worden om het effect van de interventie te kwantificeren. Een mogelijkheid is om het verschil tussen beide percentages te berekenen. Dit wordt het risicoverschil (RV) genoemd. Een andere mogelijkheid is om verhouding van twee percentages te berekenen. Deze verhouding wordt het relatief risico (RR) genoemd.

Bij wetenschappelijk onderzoek gaat het erom dat het onderzoeksresultaat vertaald kan worden naar de populatie. De onzekerheid van het gevonden resultaat hangt af van de grootte van de onderzoekspopulatie en de spreiding in de uitkomstvariabele.

Het 95% betrouwbaarheidsinterval rond het risicoverschil en het relatief risico

Bij een dichotome variabele gaat het om percentages, en de standaard deviatie van een percentage wordt als volgt gedefinieerd: zie formule 5.1 in de bijlage

De standaardfout van het gevonden percentage is dan (net als bij continue uitkomstvariabelen) de standaarddeviatie gedeeld door de wortel uit het aantal observaties): zie formule 5.2 in de bijlage

De standaardfout van het verschil in percentages is te berekenen als volgt: zie formule 5.3 in de bijlage

Het betrouwbaarheidsinterval is vervolgens te construeren met behulp van een normale benadering: zie formule 5.4 in de bijlage.

Op basis van een gevonden betrouwbaarheidsinterval kan een uitspraak worden gedaan of het risicoverschil significant is. Er moet worden gekeken of de waarde van de nulhypothese binnen of buiten de grenzen van het interval ligt. Als de waarde van de nulhypothese 0 is (er is geen verschil in percentage tussen interventie en controlegroep), en dat getal ligt buiten het 95% betrouwbaarheidsinterval is er dus sprake van een significant verschil tussen beide percentages.

Bij de normale verdeling gebruikt men 1,96 keer de standaardfout als maat voor de onzekerheid. Deze benadering gaat beter naarmate de aantallen groter zijn en ook naarmate de geobserveerde percentages dichter bij 50% liggen. De normale benadering gaat steeds beter naarmate de onderzoekspopulatie groter wordt en de geobserveerde percentages dichter bij 50% liggen.

Ook voor het relatief risico kan een 95% betrouwbaarheidsinterval worden geconstrueerd. Voor de berekening daarvan is het belangrijk te beseffen dat het relatief risico onder de nulhypothese een scheef naar rechtse verdeling heeft. De waarde van de nulhypothese is 1, de minimale waarde is gelijk aan 0 en de maximale waarde gelijk aan oneindig. Om een betrouwbaarheidsinterval te berekenen moet eerst een logtransformatie worden uitgevoerd en vervolgens moet de standaardfout van de loggetransformeerde waarde van het relatieve risico worden berekend: zie formule 5.5 in de bijlage.

Aan de hand van de 2x2tabel kan de standaardfout van de natuurlijke logaritme van het relatief risico worden berekend.

Vervolgens kan rond de natuurlijke logaritme van het relatief risico op de gebruikelijke manier een 95%-betrouwbaarheidsinterval worden berekend: zie formule 5.6 in de bijlage.

Het betrouwbaarheidsinterval moet weer teruggetransformeerd worden om een 95%-betrouwbaarheidsinterval te krijgen rond het relatief risico. Dit kan gedaan worden door de e-macht te nemen van beide grenzen.

Wat op valt is dat het betrouwbaarheidsinterval niet symmetrisch is rond het geobserveerde relatieve risico. De bovengrens ligt verder weg van het gevonden relatieve risico dan de ondergrens als het betrouwbaarheidsinterval groter is dan 1. Als het relatieve risico kleiner is dan 1, is dit net andersom. Dit komt omdat het relatief risico gemeten is op een logaritmische schaal.

Toetsen van het risicoverschil en het relatief risico

Aan de hand van het 95% betrouwbaarheidsinterval rond het risicoverschil kun je concluderen dat er sprake is van een significant risicoverschil. Om een echte p-waarde te krijgen moet men de kans berekenen dat de 2x2tabel deze waarden zal bevatten (of nog verder weg van de nulhypothese) als de nulhypothese waar is.

Om dit te berekenen kan onder andere een toetsingsgrootheid worden gegenereerd: zie formule 5.7 in de bijlage

Om het betrouwbaarheidsinterval te construeren gebruikt men de standaardfout van het geobserveerde verschil in percentages, bij het toetsen gebruikt men de standaardfout van het verschil in percentages onder de nulhypothese.

Bij een betrouwbaarheidsinterval rond de geobserveerde waarde ligt de standaardfout ook rond de geobserveerde waarde.

Bij toetsen van de nulhypothese gaat het om onzekerheid rond de nulhypothese en kan het best worden geschat aan de hand van de standaardfout van percentages verwacht onder de nulhypothese: zie formule 5.8 in de bijlage.

De standaardfout van de percentages onder de nulhypothese verschilt van de standaardfout van de geobserveerde percentages. Met de standaardfout kan de toetsingsgrootheid worden berekend en de bijbehorende p-waarde worden bepaald.

Omdat de toets en het betrouwbaarheidsinterval gebruik maken van verschillende standaardfout kan de toets met betrekking tot significantie een andere conclusie vormen dan het betrouwbaarheidsinterval. Dit zal alleen gebeuren als de p-waarden heel dicht bij de 5% grens liggen.

Een andere manier om de p-waarde te berekenen bij het vergelijken van twee groepen is de chikwadraattoets. Eerst moet worden berekend hoeveel mensen in verschillende cellen worden verwacht als de nulhypothese waar is.

In een 2x2 tabel moet de kans dat iemand in een bepaalde kolom zit vermenigvuldigd worden met de kans dat iemand in een bepaalde rij zit. Om de kans te berekenen op een 2x2tabel als de nulhypothese waar is, moet per cel het geobserveerde aantal personen vergeleken worden met het verwachte aantal personen. Hoe groter het verschil hoe lager de p-waarde zal zijn. De X2 kan op die manier worden berekend: zie formule 5.9 in de bijlage.

Voor elke cel wordt het verschil tussen de geobserveerde personen en het verwachte aantal personen gekwadrateerd en vervolgens gedeeld door het verwachte aantal. In totaal levert dit dus de X2.

Er volgt dus een chi-kwadraatverdeling met 1 vrijheidsgraad.

De manier om de p-waarde te berekenen is een benadering van de werkelijkheid. Dit gaat beter naarmate de verwachte aantallen in verschillende cellen groter zijn.

De grens is arbitrair: de chikwadraattoets gaat goed als de verwachte aantallen in 80% van de cellen groter of gelijk is aan 5 en in alle cellen groter dan 1

De p-waarde behorend bij de 2x2tabel is te berekenen met de exacte toets van Fisher: zie formule 5.10 in de bijlage.

De volgende stap in de berekening is het zoeken van de kans op de in het onderzoek gevonden combinatie en de kans op de combinaties die nog verder weg liggen van de nulhypothese. De kansen verder van de nulhypothese moeten erbij worden opgeteld en verdubbeld aangezien de verdeling tweezijdig en symmetrisch is.

De chikwadraattoets geeft altijd een lagere p-waarde dan via de exacte manier toets van fisher. Alleen als de chikwadraattest niet kan worden gedaan door de regel van 5, wordt de methode van fisher toegepast. Ook kan de continuïteitscorrectie worden gedaan (ook wel Yates correctie). In alle gevallen zal de p-waarde berekend met behulp van de continuïteitscorrectie iets hoger zijn dan de exacte p-waarde.

De chikwadraatverdeling met 1 vrijheidsgraad is identiek aan de standaardnormale verdeling in het kwadraat.

Het vergelijken van een proportie met eens standaardwaarde

Om te onderzoeken of het resultaat ook in de doelpopulatie voorkomt moet de onbetrouwbaarheid van het gevonden resultaat gekwantificeerd worden. Dit gebeuren door het 95% betrouwbaarheidsinterval te construeren rond het gevonden herstelpercentage: zie formule 5.11 in de bijlage

Het vergelijken van twee metingen bij dezelfde persoon

Bij een continue uitkomstvariabele kunnen de verschillen tussen twee metingen bij dezelfde persoon geanalyseerd worden met de gepaarde t-toets. Bij dichotome uitkomstvariabelen wordt dit gedaan door middel van cross-over-trial. Het is een experimenteel onderzoek waarin de proefpersonen gebruikt worden als hun eigen controlepersoon. De ene helft van de proefpersonen krijgt dan eerst de interventieconditie en daarna de controleconditie. De andere krijgt eerst de controle en vervolgens de interventieconditie. Het is alleen effectief bij een kortdurend effect. Het wordt vaak gebruikt voor onderzoeken zoals pijnstillers, bloedverdunners en dergelijke.

Het risicoverschil oftewel het verschil tussen de twee percentages verbetering, en de daarbij horende standaardfout zijn nu te berekenen met behulp van: zie formules 5.12 in de bijlage

Met behulp van de standaardfout kan het 95% betrouwbaarheidsinterval rond het risicoverschil worden berekend: zie formule 5.13 in de bijlage.

McNemar-toets is een chikwadraattoets voor gepaarde waarnemingen. Hiervoor moet eerst de waarde van de standaardfout van het verwachte risicoverschil (als de nulhypothese waar is) worden berekend: zie formules 5.14 in de bijlage

De toetsingsgrootheid van McNemar-toets is te berekenen met behulp van formule 5.15 in de bijlage.

Omdat de McNemartoets uitgaat van een chikwadraatverdeling met een vrijheidsgraad, is de toetsingsgrootheid van deze toets het kwadraat van de Z-waarde. Zie formule 5.16 in de bijlage

Bij spss krijg je een andere waarde omdat spss een standaard continuïteitscorrectie toepast.

Dit kan ook worden toegevoegd aan de formule: zie formule 5.17 in de bijlage

Het vergelijken van meer dan 2 groepen

Het aantal vrijheidsgraden bij een willekeurige kruistabel kan eenvoudig worden berekend door het aantal rijen min 1 te vermenigvuldigen met het aantal kolommen min 1.

De linear by linear association of terwijl toets voor trend of trendtoets wordt gebruikt om te toetsen als percentages in de 2x3 tabel gelijkmatig oplopen dan wel aflopen, wat een extra dimensie toevoegt aan de standaard chikwadraattoets. Het heeft alleen een interpreteerbare p-waarde als de determinant (de variabele met meer dan twee groepen) een ordinale variabele is. De toets trendtoets heeft altijd een vrijheidsgraad onafhankelijk van de hoeveelheid groepen waaruit de determinant bestaat. Dit is omdat de toets voor trend toetst of alle stapjes in toe of afname van de percentages gelijk zijn. Dus als 1 stap bekend is, zijn alle stapjes gelijk.

Om het betrouwbaarheidsinterval te berekenen moeten van de 3x2tabel 3 keer een 2x2 tabel gemaakt worden, waarvoor verschillende risicoverschillen of relatieve risico’s worden berekend.

De oddsratio

Relatieve risico en risicoverschil kunnen alleen gebruikt worden als er sprake is van prospectief cohortonderzoek. In alle andere kansen kun je geen absolute kansen bereken. In case-controle onderzoek en retrospectief onderzoek en cross-sectioneelcohortonderzoek gebruik je de oddsratio. Het gaat hierbij op relatieve kansen op de uitkomstvariabele. De odds op een bepaalde uitkomst is gedefinieerd als de kans op de uitkomst gedeeld door 1 min die kans: zie formule 5.18 in de bijlage.

De oddsratio luidt als volgt: zie formule 5.19 in de bijlage

Een odds wordt vaak geïnterpreteerd als het relatieve risico, maar een odds is altijd een overschatting van het relatief risico.

Het betrouwbaarheidsinterval is erg van belang bij het oddsratio. Eerst moet het gelogtransformeerd worden. Als de nulhypothese waar is, dan is de oddsratio een scheef naar rechtse verdeling. Als de nulhypothese waar is, is de oddsratio gelijk aan 1. De minimale waarde is dan nul en de maximale waarde oneindig.

De standaardfout van de natuurlijke logaritme van de oddsratio: zie formule 5.20 in de bijlage.

Het 95%betrouwbaarheidsinterval: zie formule 5.21 in de bijlage.

Vervolgens moet de e-macht genomen worden.

Het betrouwbaarheidsinterval rond de oddsratio is niet symmetrisch, net zoals bij het relatieve risico. Ook ligt de bovengrens verder weg dan de ondergrens. Om voor de odds-ratio de werkelijke p-waarde te krijgen moet de chikwadraattoets worden gedaan.

Hoe groot de overschatting van het oddsratio van het relatieve risico is, hangt af van de prevalentie van de uitkomstvariabele. Als de prevalentie van de uitkomstvariabele erg klein is, kleiner dan 5%, wordt het een betere schatter. De p-waarde van de odds-ratio is het zelfde als die van het relatief risico. Dit impliceert dat het 95%betrouwbaarheidsinterval rond het oddsratio breder is dan het 95% betrouwbaarheidsinterval rond het relatief risico. De oddsratio kan worden berekend met logistische regressieanalyse.

Het analyseren van relaties tussen een dichotome uitkomstvariabele en diverse andere variabelen

Bij continue uitkomstvariabelen gebruikt men de lineaire regressieanalyse, bij dichotome uitkomstvariabelen gebruikt men de logistische regressieanalyse.

Een logistische regressieanalyse is een manier om de dichotome uitkomstvariabele zo te transformeren dat hij lineair wordt.

Stap 1 is het opstellen van een lineaire regressievergelijking voor de dichotome uikomstvariabele: zie formule 5.22 in de bijlage.

Dit kan niet lineair bekeken worden omdat dit niet normaal verdeeld is.

Stap 2 is de kans op de dichotome uitkomst modelleren.

Nu is de kans binomiaal verdeeld tussen 0 en 1

Vervolgens wordt de Odds gebruikt (De relatieve kans): zie formule 5.24 in de bijlage.

De odds vormt een continue variabele van 0 tot oneindig. De odds is alleen scheef naar rechts verdeeld. Een kans van 50% (het midden) geeft odds van 1, een kans van 0% geeft een kans van 0 en een kans van 100% geeft een kans oneindig.

Om de scheef naar rechtse verdeling normaal te maken kan een logtransformatie worden toegepast. De natuurlijke logaritme van de odds wordt dan toegepast: zie formule 5.25 in de bijlage.

Dit is continue en normaal verdeeld. Vervolgens kan het gebruikt worden als lineaire regressieanalyse. Hij kan ook zo worden geschreven: zie formule 5.26 in de bijlage

De regressiecoefficient is het verschil in de uitkomstvariabele per eenheid verschil in de determinant.

Aangezien de uitkomstvariabele van een logistische regressieanalyse de natuurlijk logaritme is van de odds op de dichotome uitkomst, kan de regressiecoëfficiënt van de variabele rookgedrag gezien worden als het verschil tussen rokers en niet-rokers voor wat betreft de natuurlijke logaritme van de kans op een hartinfarct gedeeld door 1 min die kans.

De regressiecoëfficiënt is dus gelijk aan de natuurlijke logaritme van de oddsratio. Door een e-macht te nemen van de regressiecoëfficient, EXP(regressiecoefficient), verdwijnt de natuurlijke logaritme en blijft de oddsratio over: zie formule 5.27 in de bijlage.

Om het 95% betrouwbaarheidsinterval rond de gevonden oddsratio te berekenen moet eerst het 95%-betrouwbaarheidsinterval rond de gevonden regressiecoëfficiënt berekend worden: zie formule 5.28 in de bijlage.

Nu moeten de grenzen van het 95%betrouwbaarheidsinterval omgezet worden naar de oddsratio. Dit kan door een e-macht van beide grenzen te nemen.

Om de p-waarde te berekenen kan met behulp van de output van de logistische regressieanalyse de Waldtoets worden uitgevoerd: zie formule 5.29 in de bijlage.

De wald-statistic volgt een chikwadraatverdeling met een vrijheidsgraad.

Bij lineaire regressieanalyse worden de waarden van de regressiecoëfficiënten geschat met behulp van de kleinstekwadratenmethode. Bij logistische regressieanalyse gebruikt men een andere schattingstechniek, namelijk de maximum likelihood-schattingsmethode. De likelihood (aannemelijkheid) moet zo groot mogelijk zijn voor iedereen.

De likelihood wordt berekend door voor elke persoon in het onderzoek op basis van de regressiecoëfficiënten de kans op de uitkomst te berekenen en daarna al deze kansen met elkaar te vermenigvuldigen: zie formule 5.30 in de bijlage.

De kansen zijn niet absoluut, maar relatief ten opzichte van de kans van 50% die er a priori is. Je krijgt een kans van 50% als er evenveel cases als controls zijn.

Omdat de likelihood heel klein is, wordt hij vaak getransformeerd tot de -2-log-likelihood (-2 x de natuurlijke logaritme van de likelihood). Dus -2 x ln [ likelihood]

Het doel van de maximum likelihood-schattingsprocedure is de regressiecoëfficiënten te schatten zodat de likelihood van het model zo groot mogelijk is. Dus de -2-log likelihood zo laag mogelijk.

De waarden zijn heel afhankelijk van de grootte van de populatie.

In de likelihood-ratio worden twee -2-log-likelihoods met elkaar vergeleken.

Het aantal vrijheidsgraden van deze chikwadraatverdeling is gelijk aan het verschil in aantal parameters tussen beide modellen.

De wald-toets en de likelihood beantwoorden dus min of meer dezelfde vraag.

Als een logistische regressie-analyse wordt gedaan met een continue variabele, krijg je dezelfde toets als de toets voor trend. Net als bij lineaire regressieanalyse met een categoriale determinant moet de categoriale variabele alcoholgebruik worden vervangen door een aantal dichotome dummyvariabelen. Er moeten dus dummyvariabelen gemaakt worden.

Als je geïnteresseerd bent in de relatie (bijvoorbeeld aantal glazen alcohol) dan wil je de regressiecoëfficiënt weten van twee alcohol dummyvariabelen: zie formule 5.31 in de bijlage.

Als voor beide dummywaarden nul wordt ingevuld, krijg je het natuurlijke logaritme van de odds op het hebben van de uitkomstmaat.

Om van het verschil in regressie-coëfficiënt te gaan naar oddsratio moet de e-macht genomen worden. De inverse oddsratio geeft de inverse kans aan.

Om een betrouwbaarheidsinterval te krijgen moeten de dummyvariabelen anders gecodeerd worden.

De overall-wald toets is te vergelijken met de chikwadraattoets.

De overall p-waarde van de associatie tussen het hebben van een hartinfarct en alcoholgebruik kan ook bepaald worden met behulp van de likelihood-ratiotoets. Hiervoor moet de likelihood van het logistische regressiemodel zonder determinanten vergeleken worden met de likelihood van het logistische regressiemodel met daarin de twee dummyvariabelen.

Bij het berekenen van de chikwadraat of wald-statistic beantwoord je eigenlijk de vraag: wat is de kans op het gevonden resultaat (of nog verder weg van de nulhypothese) als de nulhypothese waar is?

Als je van BMI bijvoorbeeld 1 eenheid weet, en je wilt weten wat de oddsratio van 5 eenheden is, bereken je dit als volgt: zie formule 5.32 in de bijlage.

Voor het 95% betrouwbaarheidsinterval moet ook de standaardfout en de regressie-coëfficiënt met vijf vermenigvuldigd worden: zie formule 5.33 in de bijlage

Om de oddsratio van 5 eenheden te meten: zie formule 5.34 in de bijlage.

Confounding en effectmodificatie

Effectmodificatie betekent dat het effect (of de relatie) dat gevonden is een bepaalde analyse verandert bij verschillende waarden van de mogelijke effectmodificator. Het effect kan bijvoorbeeld anders zijn voor mannen dan voor vrouwen, jong of oud.

Confounding wil zeggen dat het effect dat gevonden wordt geheel of gedeeltelijk te maken heeft met een andere factor.

Het is het eenvoudigst om zo’n effect te meten door het gestratificeerd analyseren van een 2x2tabel.

Als je een effectmodificator vindt, is het moeilijk om te bepalen of het apart vermeld moet worden of niet. Een oddsratio wordt gemeten op een logaritmische schaal dus lijkt het verschil groter dan het werkelijk is. Verder kun je twee betrouwbaarheidsintervallen vergelijken. Ook kun je bepalen of de oddsratio’s significant van elkaar verschillen.

Het is ook mogelijk om een toets uit te voeren die de twee gevonden oddsratio’s met elkaar vergelijkt. Deze toets wordt de toets voor homogeniteit genoemd. De nulhypothese (er is geen verschil) kan verworpen worden als de p-waarde te groot is.

Als er wel een verschil is, door bijvoorbeeld geslacht, moet dit gerapporteerd worden. Dan speelt confounding voor geslacht geen rol meer.

Of er een confounder is, kan bepaald worden met gestratificeerde 2x2tabellen. Het gewogen gemiddelde van de twee gevonden oddsratio’s is een indicatie van het effect van de interventie.

Het gewogen gemiddelde van de twee oddsratios’s staat bekend als de Mantel Haenszels gepoolde oddsratio: zie formule 5.35 in de bijlage

Bij een RTC ligt het relatief risico het meest voor de hand.

Procedure om effectmodificatie en confounding te onderzoeken met behulp van gestratificeerde 2x2 tabellen:

  1. Bereken de ruwe effectmaat (bijvoorbeeld de oddsratio)

  2. Stratificeer voor een mogelijke confouncer/effectmodificator en bereken de stratumspecifieke effectmaten

  3. Vergelijk de stratumspeficieke effectmaten

    1. Indien er grote verschillen zijn: effectmodificatie; rapporteer de stratum specifieke effectmaten (analyse afgelopen)

    2. Als er geen grote verschillen zijn: geen effectmodificatie

  4. Bereken de gepoolde effectmaat en vergelijk de ruwe effectmaat met de gepoolde effectmaat

    1. Als er grote verschillen zijn: confounding, rapporteer de gepoolde effectmaat

    2. Als er geen grote verschillen zijn: geen confounding; rapporteer de ruwe effectmaat

De methode is vooral geschikt voor dichotome confounders en effectmodificatoren, minder voor categoriale en continue confounders en effectmodificatoren.

Er is sprake van relevante confounding als de regressiecoefficiënt met meer dan 10% verandert.

Met behulp van logistische regressieanalyse kun je ook een effectmodificatie onderzoeken. Er moet eerst een interactieterm worden aangemaakt die bestaat uit een vermenigvuldiging van de interventievariabele en de mogelijke effectmodificator. Vervolgens wordt er een logistische regressieanalyse uitgevoerd met drie variabelen: interventievariabele en de interactie en nog een derde: zie formule 5.36 in de bijlage

De oddsratio van de interventie voor vrouwen is vaak direct uit output af te lezen. Bij mannen moeten er twee regressie-coëfficiënten bij elkaar opgeteld. Zie formule 5.37 in de bijlage.

Inleiding in de toegepaste biostatistiek - Overlevingsdata analyseren (H6)

In het vorige hoofdstuk (hoofdstuk 5), is besproken hoe je dichotome uitkomstvariabelen analyseert. Echter, daar is geen rekening gehouden met de tijd tot de uitkomst optreedt. Met een zogenaamde overlevingsanalyse wordt er rekening gehouden met de tijd die het duurt voordat iemand een bepaalde uitkomst krijgt. Hierbij wordt gebruik gemaakt van incidentiedichtheden, in tegenstelling tot de cumulatieve incidenties in de 2x2-tabel. Een cumulatieve incidentie is de kans op een bepaalde uitkomst wanneer iemand deze uitkomst niet heeft aan het beging van het onderzoek. Bij een incidentiedichtheid wordt het aantal personen dat de uitkomst heeft gekregen, gedeeld door het aantal personen dat aan het begin van de periode ziektevrij was en door de tijd dat deze personen ‘at risk’ zijn geweest.

Bij een overlevingsanalyse zijn er in feite twee mogelijkheden: de persoon krijgt wel de uitkomst, of hij krijgt deze niet. Wanneer de persoon de uitkomst niet krijgt, spreekt men van censoring. Er kan dan sprake zijn van twee mogelijkheden: de persoon heeft de uitkomst niet gekregen binnen de tijd van het onderzoek, of de persoon is vroegtijdig met het onderzoek gestopt.

Om de incidentiedichtheid te berekenen, deel je het aantal personen met een de uitkomst door het aantal persoonsjaren ‘at risk’. De incidentiedichtheid kan van twee groepen worden berekend, zodat deze groepen vergeleken kunnen worden. Hiervoor worden het incidentiedichthedenverschil en de incidentiedichthedenratio gebruikt. Het verschil wordt berekend door de beide incidentiedichtheden van elkaar af te trekken. De ratio is dor de beide incidentiedichtheden door elkaar te delen. De incidentiedichthedenratio is niet hetzelfde als het relatieve risico, omdat in deze laatste niet de tijd tot de uitkomst wordt meegenomen. Wanneer de incidentiedichthedenratio hoger is dan het relatieve risico, betekent dit dat in een groep met een risicofactor de uitkomst niet alleen vaker, maar ook sneller optreedt.

Om de gevonden uitkomsten te kunnen generaliseren, moet de onzekerheid van het resultaat worden gekwantificeerd met betrouwbaarheidsintervallen. Hiervoor is een schatting van de standaardfout nodig. Voor de formule van de standaardfout van het incidentiedichthedenverschil: zie formule 6.1 in de bijlage. Met de standaardfout kan vervolgens de 95% betrouwbaarheidsinterval worden berekend: zie formule 6.2 in de bijlage.

Wanneer men de standaardfout van de incidentiedichthedenratio wil berekenen, moet een logtransformatie worden toegepast, omdat de ratio een scheef naar rechtse verdeling volgt, wanneer de nulhypothese waar is. De standaardfout van de natuurlijke logaritme van de incidentiedichthedenratio wordt berekend met formule 6.3 in de bijlage. Vervolgens kan rond het natuurlijk logaritme van de incidentiedichthedenratio een 95%-betrouwbaarheidsinterval worden berekend: ziek formule 6.4 in de bijlage. Om de grenzen van dit 95% betrouwbaarheidsinterval vervolgens terug te transformeren naar hun oorspronkelijke waarde, wordt een e-macht berekend. Wanneer de waarde van de nulhypothese (1) binnen de grenzen van het 95% betrouwbaarheidsinterval valt, is er geen significante relatie.

Kaplan-Meier-overlevingscurve

Een Kaplan-Meier-overlevingscurve wordt gebruikt om een dichotome uitkomstmaat weer te geven in de tijd. De tijd wordt verdeeld in bepaalde periodes en per periode wordt de kans op een uitkomstmaat berekend, ervan uitgaande dat de personen in die periode de uitkomstmaat nog niet hebben. Dit kan berekend worden met de Kaplan-Meier-rekenformule: zie formule 6.5 in de bijlage. Ook nu kunnen verschillende groepen met elkaar vergeleken worden. Er kan een p-waarde berekend worden voor het verschil tussen de beide groepen. Hiervoor wordt de log-ranktoets gebruikt. Hierbij wordt het aantal geobserveerde cases vergeleken met het aantal te verwachten cases bij een nulhypothese die waar is. Deze twee worden op ieder tijdspunt in de studie vergeleken, terwijl je bij de klassieke chikwadraattoets alleen de verschillen aan het eind van de studie vergelijkt. Na het vergelijken van de geobserveerde cases en het aantal verwachte cases, worden de verwachte aantallen opgeteld. Er wordt een toetsingsgrootheid van de log-ranktoets berekend: zie formule 6.6 in de bijlage. Er wordt een chikwadraatverdeling gevolgd met een aantal vrijheidsgraden dat gelijk is aan het aantal groepen – 1.

Een nadeel van de Kaplan-Meier-overlevingscurve is dat er geen effectmaat kan worden berekend en dat er niet is aan te geven ho groot het verschil tussen de twee vergeleken groepen is.

Meer dan twee groepen vergelijken

Wanneer je meer dan twee groepen wil vergelijken, kan je de incidentiedichthedenverschillen en/of incidentiedichtheden ratio’s van de verschillende groepen vergelijken. Echter, de p-waarde die kan worden berekend, laat niet zien tussen welke twee groepen er een significant verschil is. Om deze reden moet een post-hoc-procedure worden uitgevoerd. Hierbij worden elke keer twee verschillende groepen met elkaar vergeleken.

COX-regressieanalyse

Met een COX-regressieanalyse kunnen de relaties tussen overlevingsdata en diverse determinanten worden onderzocht. Bij een COX-regressieanalyse wordt de uitkomstvariabele getransformeerd zodat er een soort lineaire regressieanalyse gedaan kan worden.

Het natuurlijke logaritme van de hazard kan beschreven worden met een lineaire functie. De hazard is de inverse van de overleving (dus het wel krijgen van de uitkomstmaat). Bij een COX-regressieanalyse wordt geen intercept gerapporteerd, omdat het intercept een functie over de tijd is. Een COX-regressievergelijking ziet er als volgt uit: zie formule 6.7 in de bijlage.

COX-regressie bij een dichotome uitkomstmaat

Bij een COX-regressie is de uitkomstvariabele de natuurlijke logaritme van de hazard op herstel. Het verschil van twee logaritmen met hetzelfde grondtal is gelijk aan de logaritme van het quotiënt van de twee getallen: zie formule 6.8 in de bijlage. Met een e-macht kan het logaritme worden weggewerkt: zie formule 6.9 in de bijlage. Dit wordt gezien als de hazardratio. De hazardratio geeft aan hoeveel groter de kans op de uitkomst is vergeleken met de controle groep, op ieder tijdstip in de studie.

Er kan ook een Wald-statistic worden toegepast: zie formule 6.10 in de bijlage.

Daarnaast kan een 95% betrouwbaarheidsinterval rond de regressiecoëfficiënt worden berekend: zie formule 6.11 in de bijlage. Met de e-macht van de grenzen kan de 95% betrouwbaarheidsratio rond de hazardratio worden berekend.

Hoewel alle bovengenoemde testen op elkaar lijken, is het belangrijk om de weten dat de log-ranktoets is gebaseerd op geobserveerde gegevens, terwijl de Wald-toets en de likelihood-ratiotoets gebaseerd zijn op gemodelleerde gegevens.

COX-regressie bij een categoriale uitkomstmaat

Met de COX-regressieanalyse kunnen ook categoriale determinanten geanalyseerd worden. De categoriale gegevens moeten worden omgezet in dichotome dummyvariabelen.

Met een overall Wald toets worden de overlevingscurves van de verschillende groepen vergeleken.

COX-regressie bij een continue uitkomstmaat

Bij een continue uitkomstmaat kunnen geen incidentiedichtheden worden berekend of een log-ranktoets worden uitgevoerd. Een continue uitkomstmaat kan vergeleken worden met een dichotome uitkomstmaat met een COX-regressieanalyse. Hierbij wordt ook de tijd in de uitkomst betrokken. De regressiecoëfficiënt die berekend wordt, is dan het verschil in de uitkomstvariabele bij een verschil van één eenheid in de determinant (bijv. één jaar bij de determinant leeftijd). De grootte van het effect van de interventie of risicofactor is afhankelijk van de grootte van de eenheid van de determinant die wordt gekozen. Om een grotere eenheid te gebruiken, kan men de regressiecoëfficiënt vermenigvuldigen naar de gewenste eenheid. Hiervan wordt weer de e-macht genomen.

Lineariteit bij COX-regressieanalyse met een continue uitkomstmaat

De determinant wordt in groepen verdeeld. Per groep wordt de regressiecoëfficiënt vergeleken. Deze verschillen behoren bij de verschillende groepen ongeveer even groot te zijn, wanneer er sprake is van een lineair verband.

Confounders en effectmodificatoren

Om de effecten van confounding te bepalen, wordt een ruwe analyse vergeleken met een gecorrigeerde analyse. De regressiecoëfficiënt van beide analyses wordt vergeleken. Een verschil van 10% of meer duidt op confounding.

Effectmodificatie kan berekend worden door de variabele van interesse te vermenigvuldigen met de mogelijke effectmodificator. Vervolgens wordt er een COX-regressieanalyse uitgevoerd.

Proportional hazards aanname

Bij een COX-regressie analyse ga je ervan uit dat de hazardratio ongeveer gelijk blijft over de tijd. Of dit werkelijk zo is, kan het beste worden beoordeeld door de Kaplan-Meier-overlevingscurve te bekijken. Daarnaast kan ook een log-minus-logplot worden gemaakt. Hierin kan ook de invloed van andere variabelen worden meegenomen.

Echter, de meest voor de hand liggende methode is de COX-regressie met een tijdsafhankelijke covariaat. Hierbij kunnen verschillende perioden worden vergelijken.

Er kan ook een chikwadraattoets met Schoenfeld-residuen worden gebruikt.

Beperkingen van de COX-regressieanalyse

Een belangrijke beperking is dat de hazardratio een gemiddeld over de gehele periode is, terwijl de hazardratio in de werkelijkheid niet over de gehele periode hetzelfde hoeft te zijn. Een tweede belangrijke beperking is dat sommige determinanten tijdsonafhankelijk zijn. Daarnaast wordt er geen rekening gehouden met reversibele uitkomstmaten. Er is een COX-regressieanalyse voor recurrent events ontwikkeld, waarbij er wel rekening wordt gehouden met terugkerende klachten.

bijlage_formules_en_figuren_bij_inleiding_in_de_toegepaste_biostatistiek.pdf

 

Image  Image  Image  Image

Access: 
Public

Image

Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why would you use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, study notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:
Institutions, jobs and organizations:
Statistics
972