Medische wetenschappen: algemene geneeskunde bundel
- 1903 reads
Uitwerking colleges en behandeling verplichte stof. Gebaseerd op 2011-2012.
De vragen en tekst uit de colleges zijn afkomstig uit het blokboek Architectuur van Klinisch Wetenschappelijk Onderwijs, Geneeskunde CRU2006/Bachelor jaar 3, cursusjaar 2011-2012.
Ventilator associated pneumonia (VAP)
Ventilator associated pneumonia (VAP) is een beademingsgeassocieerde longontsteking. Deze kan optreden bij patiënten op de IC die beademt worden. Er zijn drie soorten longontstekingen:
CAP: community acquired pneumonia.
HAP: hospital acquired pneumonia.
VAP: ventilator associated pneumonia. Een VAP is altijd een HAP, niemand ligt immers thuis aan de beademing. Een VAP treedt vaak op op de IC.
Typische symptomen van een CAP zijn:
Hoesten.
Met opgave van sputum.
Koorts.
Pijn bij de ademhaling.
Dyspnoe.
Lichamelijk onderzoek bestaat uit:
Auscultatie.
Hartfrequentie.
Temperatuur.
Percussie.
Bloeddruk.
Ademhalingsfrequentie.
Aanvullend onderzoek bestaat uit een sputumkweek, een X-thorax, bloedonderzoek (leuko’s, CRP) en een bloed- en urinekweek.
De belangrijkste verwekkers van een CAP zijn:
De pneumokok: streptococcus pneumoniae.
Morexella Catharhalis.
Hemophilus Influenzae.
Mycoplasma pneumoniae.
Influenza (virus).
Legionella spp.
Stafylococcus Aureus.
Om snel iets te weten te komen over het type bacterie waar het om gaat, kan een Gram-kleuring gedaan worden. Wat hiermee niet kan worden gezien is influenza (dit is immers een virus), mycoplasma pneumoniae (deze heeft een soort draden) en legionella spp. (omdat deze intracellulair zit). Met een Gram-kleuring wordt de celwand van een bacterie aangekleurd. Het gaat om het verschil in de opbouw van gram-positieve en gram-negatieve bacteriën: een verschil in proteïnen. Als de laag dik is, komt er meer kleuring in de cellaag dan wanneer deze dun is. De gram-negatieve bacteriën zijn blauw en de gram-positieve zijn rood. Degene die je niet kunt zien kunnen toch ontdekt worden met bijvoorbeeld antilichaam testen m.b.v. urine. Dit is een heel specifieke test, wat betekent dat een positieve test ook vrijwel zeker legionella aantoont. De test is echter niet zo sensitief, wat betekent dat een negatieve test legionella niet uitsluit.
Behandeling van een CAP bestaat uit:
Amoxiciline. Dit werkt voor pneumokokken, een deel van de Morexella (maar voor een deel ook niet) en voor de meerderheid van H. Influenzae. Het werkt niet voor Legionella spp, influenza, mycoplasma en S. Aureus. Eigenlijk worden hiermee alleen de pneumokokken met zekerheid behandeld. Op de IC heeft men vaak nog geen idee van de verwekker en wordt vaak ook ciprofloxacin toegevoegd.
Bij een VAP kunnen de volgende symptomen verwacht worden:
Koorts.
Opgeven van sputum.
Wellicht pijn bij de ademhaling, maar dit kunnen patiënten niet aangeven.
Wellicht dyspnoe, maar dit kunnen patiënten niet aangeven en bovendien wordt de ademhaling gereguleerd door de machine, dus dit is een symptoom wat niet bruikbaar is voor diagnostiek.
Bij deze patiënten is auscultatie en percussie lastig omdat de kans klein is dat er iets gehoord wordt, omdat er altijd gehoord wordt dat de beademingsmachine een stoot lucht geeft. De hartfrequentie en bloeddruk kunnen wel gemeten worden, evenals de temperatuur. Aanvullend kan een sputumkweek, een bloedkweek, een X-thorax, een urinekweek en een bloedonderzoek (leuko’s en CRP) afgenomen worden. Een X-thorax kan gedaan worden, maar het nadeel is dat er vrijwel altijd afwijkingen te zien zijn wanneer iemand aan de beademing ligt (zoals atelectase, pleuravocht dat niet infectieus hoeft te zijn, etc.). Een thoraxfoto is wel sensitief, maar niet specifiek. Als er afwijkingen worden gezien, betekent dit namelijk niet dat er sprake is van een longontsteking. Patiënten aan de beademing hebben veel slijm in de longen omdat ze niet kunne slikken door de tube, het trilhaarepitheel is kapot. Het slijm moet door verpleegkundigen worden afgevoerd. De bloedwaarden kunnen om veel redenen verhoogd zijn, bijvoorbeeld als gevolg van een eerdere operatie of fracturen.
In geval van een VAP heeft men dus een diagnostisch probleem. De vraag is dan ook hoe men met weinig informatie tot een goede diagnose kan komen. De meest voorkomende verwekkers van een VAP zijn:
Stafylococcus Aureus.
De pneumokok, maar dit komt niet zo vaak voor.
E. Coli.
Pseudomonas spp.
Klebsiella spp.
Enterobacter spp.
Veel van deze bacteriën leven normaal in de darmen van gezonde mensen.
Schimmels vinden we eigenlijk niet als verwekker van een VAP, eigenlijk alleen bij patiënten die langdurig immunogecompromitteerd zijn.
Het grote verschil tussen de verwekkers van de CAP en VAP, is dat de verwekkers van de CAP met name in de bovenste luchtwegen voorkomen en dat de verwekkers van de VAP doorgaans niet in de luchtwegen voorkomen, maar wel in de darm. Aan de beademing verdwijnt de normale flora van de bovenste luchtwegen en deze wordt vervangen door de darmflora. Deze bacteriën kunnen worden aangetroffen in het sputum. Er zijn verschillende manieren om dit te interpreteren en een behandeling in te stellen. Er wordt niet met amoxiciline behandeld, er zijn zwaardere middelen nodig. Deze verwekkers zijn typisch resistenter en kunnen multiresistent worden. Hierbij moeten dus bredere antibiotica worden gebruikt. De diagnose CAP stellen is heel eenvoudig, dit zijn mensen die rondlopen en van de ene op de andere dag ziek zijn. De mensen op een IC lopen niet meer rond, zijn al ziek en hebben nauwelijks specifieke symptomen, waardoor het dus moeilijker is om deze diagnose te stellen. Het moeilijkste is de gouden standaard. Een test moet altijd vergeleken kunnen worden met een referentie. Dit zou kunnen bij IC-patiënten, dan zou een patholoog-anatoom een uitspraak moeten doen over het weefsel van de long. Dit kan echter niet in Nederland, dus hier moet men het doen met een surrogaat-referentie. Dit maakt diagnostisch onderzoek moeilijk bij deze patiënten. Verder is het belangrijk dat we iets te weten komen over de prognose. Heel veel patiënten op de IC hebben een bacterie in hun sputum, maar toch hebben ze niet allemaal een infectie, of voldoen in ieder geval niet aan die criteria. De reden hiervan kan onderzocht worden, dit wordt epidemiologisch onderzoek genoemd. Als hieruit een risicofactor voortkomt, kan worden gekeken of de ziekte te voorkomen is.
In de praktijk draait diagnostiek altijd om een patiënt met een klacht of symptoom. Een voorbeeld: een kind van 2 jaar komt met de ouders op de EHBO, het kind heeft hoofdpijn en nekstijfheid.
Meningitis schiet dan meteen door het hoofd als mogelijke oorzaak voor deze klachten, het springt eruit vanwege de ernst. Echter, ook andere ziektebeelden kunnen dit beeld geven. Meningitis is moet wel snel gediagnosticeerd worden. Waarom men een diagnose stelt:
Het is de basis van medisch handelen.
Het bepaalt de behandelingskeuze.
Het zegt iets over de prognose.
De differentiaal diagnose (DD) die kan worden opgesteld bij deze casus is als volgt:
Bacteriële meningitis (BM).
Virale meningitis.
Pneumonie.
KNO infectie.
Overig (bijvoorbeeld een myalgie).
Soms is het makkelijker om te kiezen voor één diagnose, en deze aan te tonen of uit te sluiten. In dit geval kiest men dan voor bacteriële meningitis, mede vanwege de mogelijke fatale afloop als deze diagnose gemist wordt. Stel nu dat 20% van alle kinderen op de EHBO met nekstijfheid BM heeft. 20% geeft de prevalentie aan: 20% met ziekte in die populatie. De vooraf-kans ofwel de prior-kans is een kans die bepaalt wordt voordat men extra gegevens gaat bepalen. Er zijn twee dingen mogelijk:
De prior-kans is te laag om te behandelen.
De prior-kans is te hoog om naar huis te sturen.
Met een besluit reduceer je onzekerheid, dit wordt diagnostiek genoemd. De beste test bij verdenking op een bacteriële meningitis is de lumbaalpunctie. Dit is een invasieve test, ook omdat hier een specialist met ervaring bij betrokken moet worden. De uitslag kost tijd, en dit is jammer omdat er zo snel mogelijk behandeld moet worden. De vloeistof die verkregen wordt bij een lumbaalpunctie hoort helder te zijn, soms zie je dat deze troebel is. Dit is vaak ontstaan door cellen die als gevolg van een infectie in het lumbaalvocht terecht zijn gekomen. Aan zo’n test heeft men in de praktijk niet veel omdat er op gewacht moet worden en omdat het invasief en kostbaar is. Het wordt wel aangeduid als ‘gouden standaard’. Dit is een term die aangeeft dat een bepaalde methode voor een bepaald ziektebeeld de beste methode is om iets aan te tonen of uit te sluiten. Deze test is echter nog niet foutloos, daarom noemt men het liever de referentiestandaard. Het is een test die niet bij iedereen afgenomen wordt, dit vanwege de volgende redenen:
Onethisch: te belastend of risicovol.
Inefficiënt: te duur.
De test mag niet onnodig uitgevoerd worden.
De vraag is of men kan leren of een ziekte aanwezig is, zonder de referentiestandaard toe te passen. Dit is natuurlijk wat er gedaan wordt in de praktijk: men gaat informatie verzamelen. Wat er gedaan wordt:
Anamnese.
Lichamelijk onderzoek.
Simpele lab testen.
Beeldvorming.
Etc.
Het is ideaal wanneer men een diagnose kan stellen zonder hier een referentietest voor te gebruiken. Het diagnostisch proces in de praktijk is een stapsgewijs proces, er kan geen enkele diagnose worden gesteld o.b.v. één test en voor elk item moet een aparte test worden uitgevoerd. De kans op ziekte na de gegeven testuitslagen is de achterafkans ofwel de posterior-kans. Hoe groter het verschil tussen de prior- en posterior kans, hoe beter de diagnostische waarde van de testen. Het liefste wilt men 0 of 100% zien. Deze onderzoeken zijn fijn, maar leiden hier vaak niet toe. In de casus leidt het onderzoek tot een posterior kans van 10%. Stel dat er nog meer onderzoek wordt gedaan: bloedonderzoek (CRP, leukco’s, BSE, infectieparameters). Dit kan dan als volgende stap worden toegevoegd aan de informatie die men al heeft, stel dan dat de posterior kans 1% wordt.
Een ideaal diagnostisch proces is een proces waarbij eenvoudige testen de posterior kans naar 0 of 100% (zonder referentie0 brengen. Meestal test de arts door tot voldoende zekerheid is verkregen (nadering tot 0 of 100%). De keuze wordt gemaakt wanneer men voldoende zeker is, dit hangt af van de prognose van de ziekte indien deze onbehandeld blijft, en de risico’s en kosten van het behandelen. Er kan nagedacht worden over grenzen waarbij men wel of niet behandeld of de patiënt wel of niet naar huis stuurt omdat de aandoening niet aanwezig is. Als dit grenzen zijn waar artsen het over eens zijn, kunnen deze gehanteerd worden. Positieve testuitslagen zijn uitslagen waarmee zo’n zekerheid wordt bereikt dat je boven de grens uitkomt. Een negatieve testuitslag is een uitslag die leidt tot het overschrijden van de ondergrens.
Samenvatting:
Diagnosticeren in de praktijk houdt het schatten van een kans op aanwezigheid van ziekte op basis van testuitslagen van de patiënt in.
We doen niet alle mogelijke testen omdat dit belastend is (voor patiënt en budget), omdat dit overbodig is (verschillende testuitslagen geven dezelfde informatie) en omdat in de praktijk bovendien vaak meer getest wordt dan nodig.
Het draait erom welke test nodig i som tot een juiste diagnose te komen. Door de praktijk te volgen kan worden ingeschat welke testen daadwerkelijk bijdragen aan de kansinschatting. Hier komen dan een aantal elementen naar voren:
Vraagstelling. Hoe scherper en beter de vraagstelling in het begin is, hoe makkelijker het is om keuzes te maken in de opzet van het onderzoek. Een voorbeeld: met welke eenvoudige, veilige en goedkope testen kan de kans op aan- of afwezigheid van ziekte geschat worden? Wat zijn de determinanten van aan- of afwezigheid van ziekte? De determinant-uitkomst relatie is de kans op ziekte als functie van testuitslagen. De uitkomst is de kans op ziekte in procenten, de testuitslagen zijn de determinanten. De uitkomst is altijd dat waar men naar op zoek is. Men probeert iets te zeggen over aan- of afwezigheid van ziekte. Men wilt kijken hoezeer testuitslagen hiermee gerelateerd zijn, dat zijn de determinanten. De determinanten zeggen iets over de aan- of afwezigheid van ziekte. Men wil zo goed mogelijk in kaart brengen wat de relatie is tussen de testresultaten en de uitkomst.
Domein. Dit is de groep patiënten of mensen die men gaat onderzoeken. Het kan gezien worden als de vraag voor wie de resultaten van het onderzoek straks moeten gelden. Wat hierin een rol speelt, is de setting. Het is de ‘markt waarvoor het onderzoek geldt’. Dit is dus eigenlijk het type patiënt met een bepaald symptoom/klacht en de setting (EHBO/huisarts, etc). Een waarde van bijvoorbeeld CRP kan anders zijn bij de huisarts dan op de IC omdat hier altijd ernstiger patiënten komen waarbij de waarde bijvoorbeeld hoger ligt. CRP heeft dan dus een andere waarde, het domein moet dus ook tot de setting beperkt worden.
Onderzoekspopulatie. Dit is een steekproef uit het domein.
Determinant(en). Dit zijn te onderzoeken test(en). Diagnostische determinanten zijn alle mogelijke belangrijke testen in een bepaalde domein. De vraagstelling is hier belangrijk. Hoe de determinanten bepaald worden is natuurlijk ook van belang.
Zonder kennis (geblindeerd) van de uitkomst. Op het moment dat er een test gedaan wordt wanneer men al weet dat er sprake is van kanker ergens in het lichaam, dan kan men hier gericht naar zoeken en wordt de praktijk natuurlijk niet meer gevolgd.
De zelfde methode in onderzoek en praktijk, er mag dus nooit preciezer gemeten worden dan in de praktijk gedaan wordt (overschatting van de informatiewinst).
Eindpunt. Dit is de uitkomst, bijvoorbeeld aan- of afwezigheid van ziekte. Hierbij wordt de praktijk wat minder gevolgd.
De beoordeling moet blind zijn voor de determinanten.
De best mogelijke test die de praktijk leent moet gebruikt worden.
Onderzoeksontwerp. Dit is het design. Er zijn verschillende typen onderzoek:
Observationeel onderzoek. Dit houdt in dat er geen manipulatie van determinanten is. Voorbeeld: in de trial gaat het lot bepalen wie wel of niet de behandeling gaat krijgen. Bij observationeel onderzoek krijgt iedereen alle testen.
Descriptief onderzoek. Dit houdt niet-causaal in. Er wordt niet meteen etiologisch geïnterpreteerd en niet meteen causaal. Als de determinant maar voorspelt. Er is geen hypothese werkingsmechanisme. Het gaat om determinant-uitkomst. Verder wordt vaak gezien dat er meer dan 1 determinant is, de diagnose wordt immers ook bijna nooit a.d.h. 1 test bepaald.
Corss-sectioneel onderzoek (dwarsdoorsnede). Dit houdt in dat determinanten en uitkomst op ‘hetzelfde’ moment bepaald worden, dus op een bepaald moment. Men wilt hierbij niks zeggen over later, maar over het hier en nu. Het afnemen van de testen moet in het onderzoek dan ook zo dicht mogelijk bij elkaar liggen.
Data-analyse, interpretatie + rapportage.
Casus:
Welke testen dragen bij aan de kansinschatting op aan- of afwezigheid van BM bij kinderen met nekstijfheid op de EHBO?
Oftewel: wat zijn de determinanten van aan- of afwezigheid van ziekte.
Data-analyse vindt plaats na verzameling van de data per patiënt. De waarde van de determinanten (testuitslagen) en de diagnostische uitkomst (referentietest) wordt bepaald. Data-analyse bestaat uit drie stappen:
Schatten van de a priori kans (zonder testuitslagen).
Vergelijk elke testuitslag apart met de referentie (=univariaat).
Vergelijk een combinatie van testuitslagen met de referentie (=multivariaat), dit gaat via een model.
Conform volgorde in de praktijk.
Bepaal toegevoegde waarde van de testuitslag aan reeds verzamelde (voorafgaande) testuitslagen.
Opdracht 1
Deze oefening is gebaseerd op het volgende onderzoek: Draaisma JMTh, Lemmen van RJ, Jong AAM de, Doesburg W. Temperatuurmeting bij kinderen: met de trommelvlies-infraroodmeter en de rectale kwikthermometer even goede resultaten op de spoedeisendehulp-afdeling. Ned tijdschr Geneesk 1997;141:938-941, en is een goed voorbeeld van zogenaamd testonderzoek. In testonderzoek worden de testeigenschappen van twee diagnostische testen vergeleken. Dit soort onderzoek geeft geen antwoord op de vraag wat de additionele waarde is van de test voor het stellen van een diagnose.
De onderzoeksvraag was, of met behulp van een nieuwe trommelvlies-infraroodmeter accuraat de aanwezigheid van koorts kan worden gesteld bij kinderen jonger dan 11 jaar. In dit onderzoek werden in totaal 213 kinderen jonger dan 11 jaar gezien op een afdeling spoedeisende hulp van een algemeen ziekenhuis. Bij alle kinderen werd de temperatuur gemeten met de conventionele rectale kwikthermometer (RKT) en de nieuwe trommelvlies-infraroodmeter (TIM). De RKT werd als gouden standaard beschouwd en koorts werd voor beide methoden gedefinieerd als een afgelezen temperatuur hoger dan 38oC. Het gemiddelde verschil tussen de temperatuur gemeten met de TIM en RKT was nihil. Bij 96 kinderen werd volgens de gouden standaard koorts geconstateerd. Volgens de TIM waren er 86 kinderen met koorts van wie ook 77 koorts hadden volgens de RKT.
Formuleer de onderzoeksvraag in termen van determinant en uitkomst relatie. Wat is het domein?
Kan met de TIM koorts worden vastgesteld?
Determinant: te onderzoeken test = trommelvliesinfraroodmeter (TIM).
Uitkomst: koorts vastgesteld met rectale kwikthermometer.
Domein: kinderen in tweede/derde lijn (EHBO) ziekenhuis.
Bereken de sensitiviteit en specificiteit van de TIM.
Sensitiviteit: true positive/(true positive + false negative). Kans TIM+ indien RKT+ = 77/96 = 80%.
Specificiteit: kans TIM– indien RKT- = 108/117 = 92%.
Bereken de positief en negatief predictieve waarde van de TIM.
Positieve voorspellende waarde: hoeveel kinderen met koorts volgens TIM hebben ook koorts volgens referentiestandaard: kans RKT+ indien TIM+ = 77/86=90%.
Negatief voorspellende waarde: kans RKT- indien TIM- = 108/127 = 85%.
Wat verwacht u van de predictieve waarden als deze nieuwe thermometer in de huisartsenpraktijk wordt toegepast?
Stel de voorafkans op koorts in de huisartsenpraktijk is lager, bijv. 20% (X/213=0,2 X=43). Hierbij laten we sensitiviteit en specificiteit gelijk (A/43 = 0,8 A=34), (D/170=0,92 D=156). Hierbij blijkt dat VW+ lager wordt (34/48=71%) en VW- wordt hoger (156/164=95%). Op het moment dat je naar situaties gaat waarbij de prevalentie van de ziekte heel laag is, heb je minder aan een positief testresultaat omdat het vaak iemand is uit de grote groep van mensen die de ziekte niet hebben.
Wat zijn de overwegingen in termen van predictieve waarden voor toepassing van de TIM in de huisartsenpraktijk?
In de huisartsenpraktijk is een onterecht doorverwezen of behandeld kind minder erg dan een onterechte geruststelling van de ouders. Vooral de negatief predictieve waarde moet dus hoog genoeg zijn.
Vaak zijn er meerdere testen die men wilt combineren en dan in relatie wil brengen tot aan- of afwezigheid van ziekte. Alle testen waarin men op dat moment geïnteresseerd is, wil men gaan combineren. Stel dat men een functie wilt van geslacht, leeftijd, koorts en pijn. Hieraan zitten aanvullende waardes, maar het zal ook zo zijn dat sommige dingen gedeeltelijk overlappende informatie geven. CRP en koorts zijn voorbeelden. CRP zegt iets over infectie (het is verhoogd bij infectie). Ook koorts heeft een waarde voor het voorspellen van een infectieziekte. Gecombineerd is dit natuurlijk gedeeltelijk overlappende informatie. Hier is een statistisch model bij nodig (bij overlappende informatie). De 4 testen worden gecombineerd tot 1 nieuwe test, een soort supertest. De test heeft allerlei individuele uitslagen en deze worden gecombineerd in een statistisch model. Als men dus iets wil zeggen over hoe goed de samengestelde test is, dan kan een ROC curve gemaakt worden. Op de y-as staat de sensitiviteit, op de x-as de 1 min de specificiteit. Op de curve kan gezien worden dat voor ieder afkappunt wat men kan maken voor een continue test de specificiteit en sensitiviteit zijn bepaald. Wanneer de sensitiviteit 0 is en de specificiteit 100%, houdt dit in dat alle testuitslagen negatief zijn. Wanneer iedereen een positieve test gegeven is (dus wanneer het afkappunt heel laag ligt), dan is de specificiteit 0 en dan is de sensitiviteit 1. Wanneer sensitiviteit en specificiteit beide 1 zijn, is er een afkapwaarde gevonden die perfect onderscheid maakt tussen zieken en niet-zieken. Deze statistiek stelt je in staat om meer te gaan kijken naar de toegevoegde waar. Dus: het kwantificeren van toegevoegde waarde van aanvullende testen aan eerdere testen. Het vorige model kan worden uitgebreid en er kan een verandering in AUC gekwantificeerd worden. Op het moment dat een AUC bijvoorbeeld een waarde heeft van 72, kan dit gezien worden als een kans. Namelijk, als 1 persoon gepakt wordt van de niet-zieken en 1 persoon van de zieken, wat dan de kans is dat de test een hogere uitslag geeft bij de zieken dan bij de niet-zieken. De AUC zegt niet direct iets over individuele patiënten en is dus niet direct toepasbaar. Beslissingen over welk model beter is dan het andere leiden tot een goed toepasbaar model.
Rapportage:
Vraagstelling.
Onderzoeksopzet.
Onderzoekspopulatie, setting, determinanten, uitkomst, ontwerp.
Resultaten.
Voorspellende waarden (nieuwe) test en/of ROC
Vraagstelling.
Onderzoeksopzet.
Onderzoekspopulatie, setting, determinanten, uitkomst, ontwerp.
Resultaten.
Voorspellende waarden (nieuwe) test en/of ROC curve.
ROC curve is een combinatie van testen.
Toegevoegde waarde nieuwe test kan worden bepaald met een ROC curve.
De rapportage is een verslaglegging van alle keuzes die je al eerder hebt gemaakt in je onderzoek.
Oefening 2
Deze oefening is gebaseerd op het volgende onderzoek:
Barenys M, Abad A, Pons JM, Moreno V, Rota R, Granados A, Admetlla M, Pique JM. Scoring system has better discriminative value than Helicobacter pylori testing in patients with dyspepsia in a setting with high prevalence of infection. Eur J Gastroenterol Hepatol. 2000;12:1257-82.
Een internist verbonden aan een perifeer ziekenhuis krijgt een vrouw van 50 jaar op de polikliniek gastroenterologie verwezen in verband met borende pijn in het epigastrium. De klachten bestaan al enkele maanden, zijn vooral ’s nachts aanwezig en worden tijdelijk minder na het eten. Haar moeder had iets dergelijks gehad met details ontbreken. De verdere anamnese vermeldt geen bijzonderheden. Alcoholgebruik: minimaal. Roken: neen. Medicatie: gemiddeld 3 maal per week ibuprofen (een NSAID) voor haar knieklachten. De internist denkt aan een zweer van de maag of de 12-vingerige darm (ulcus pepticum). Opgeleid in een moderne ‘Evidence-Based-Medicine’ omgeving besluit de internist een diagnostische score te gebruiken om de patiënt als hoog of laag ulcus risico te kunnen classificeren. Dit heeft immers de consequentie van respectievelijk wel of geen endoscopie. De diagnostische score die de internist wil gebruiken is opgebouwd uit anamnestische gegeven en werd in de vorm van een tabel gepresenteerd:
Indicator | Punten |
Leeftijd > 40 jaar | 1 |
Mannelijk geslacht | 1 |
Alcoholgebruik > 30 gram/dag | 1 |
Roken > 10 sigaretten per dag | 1 |
NSAID gebruik > 2 doses/week | 2 |
Episodische pijn in epigastrium | 1 |
Pijn neemt af na eten | 2 |
Eerdere ulcus diagnose | 2 |
De score is de som van de punten. De positief predictieve waarde bij score groter of gelijk aan 3 is 57% en de negatief predictieve waarde is 89% (score <3 is 11% kans op peptisch ulcus). De voorafkans is 25%.
Bovenstaande tabel is het resultaat van een diagnostisch wetenschappelijk onderzoek. Hoe zou dat onderzoek eruit hebben gezien (ontwerp, uitkomst, determinanten)?
Het gaat om dwarsdoorsnede onderzoek bij patiënten verdacht voor een maag- of dunnedwarmzweer. Bij alle patiënten worden anamnestische gegevens verzameld. Bij alle patiënten werd een gastroscopie gedaan. Onafhankelijke diagnostische waarde van anamnestische factoren (determinant) voor de diagnostiek van ulcus (uitkomst: gastroscopie) werden berekend.
Ontwerp: dwarsdoorsnede onderzoek.
Uitkomst: aan- of afwezigheid van peptisch ulcus.
Determinanten: gegevens anamnese: leeftijd, geslacht, alcohol, roken, NSAID gebruik, episodische pijn, pijn afnemend na eten, eerdere ulcus diagnose.
De internist, die inmiddels een kopie van deze tabel uit de bureaulade heeft getrokken merkt dat het gegeven ‘episodische pijn’ van de patiënt nog ontbreekt. Hij vraagt hiernaar en krijgt een ontkennend antwoord. Tot welk domein behoort deze patiënte?
Volwassenen met maagklachten verwezen naar een polikliniek voor gastroenterologie van een perifeer ziekenhuis.
Wat is de score van de patiënte en wat is haar risico op peptisch ulcus? Neem daarbij aan dat het domein van de patiënte overeenkomst met dat van de patiënten waardoor de anamnestische score bedoeld is.
Haar score is 5 waardoor de positief predicitieve waarde 57% is en de negatief predictieve waarde 89%.
Wat is uw bezwaar tegen deze wijze van presenteren van een gedichotomiseerde (= in tweeën gedeelde) score?
Iedereen boven dat afkappunt heeft hetzelfde risico (en idem onder het afkappunt). Dit is natuurlijk niet reëel en de score verliest daardoor precisie. Liever predictieve waarden voor score-categorieën en predicitieve waarden voor enkele afkappunten.
De internist gebruikt deze score en handelt naar bevinden. Tijdens het golfen bespreekt hij de patiënte met een collega die stelt dat een C14-ureum-ademtest op de H.Pylori veel informatiever is. Hij zegt dat de sensitiviteit van deze test 80% en de specificiteit 85% is voor ulcuslijden. Bereken met behulp van een kruistabel en een denkbeeldige populatie van 100 patiënten uit bovengenoemd domein de positief en negatief predictieve waarde van de ademtest. Neem hierbij aan dat de voorafkans op een ulcus in dit domein ook 25% is.
De voorafkans is 25%, dus 25 patiënten hebben daadwerkelijk een ulcus.
| Ulcus | geen ulcus |
Ademtest+ | 20 | 11 |
Ademtest- | 5 | 64 |
VW+ = 20/31 = 65%
VW- = 64/69 = 93%
Wat vindt u van de diagnostische waarde van de ademtest op H.Pylori vergeleken met de anamnestische score? Waarom is de vraag welke van de twee ‘testen’ de voorkeur heeft niet de klinisch relevante vraag? Welke is deze vraag dan wel?
Predictieve waarden zijn iets gunstiger dus hebben de voorkeur. Maar het gaat niet om een geïsoleerde prediciteve waarde maar om toegevoegde diagnostische waarde gegeven de resultaten van de anamnestische score. De anamnestische gegevens zijn makkelijker te verkrijgen dan een ademtest. Het gaat er dus om wat een ademtest nog kan toevoegen, aangezien je natuurlijk sowieso een anamnese afneemt. Het kan zijn dat de aanvullende waarde niet groot is.
Hoe zou u de ‘klinisch relevante vraag’ genoemd bij vraag 5 kunnen onderzoeken? Vermeld ook de determinant-uitkomst relatie(s).
Doe bij een populatie uit het domein de anamnestische score en de ademtest. Doe vervolgens een referentietest (endoscopie) bij iedereen. Vergelijk de volgende determinant-uitkomst relaties:
P(ulcus) = f (leeftijd, geslacht, anamnese, …).
P (ulcus) = f (leeftijd, geslacht, anamnese,…, ademtest).
Vergelijk vervolgens de toegevoegde waarde van de ademtest via een ROC curve.
In het onderzoek waarin de score werd beschreven is ook de toegevoegde waarde van de ademtest onderzocht. De toegevoegde waarde bleek nihil. Hoe is dit te verklaren?
Ademtest bevat voor een deel dezelfde informatie als de score.
Is het in een onderzoek naar de toegevoegde waarde van de ademtest noodzakelijk (voor de validiteit) dat de beoordelaar van de ademtest niet op de hoogte is van het resultaat van de anamnestische score? Zo ja, waarom?
Het liefst niet, maar als in de praktijk de beoordelaar op de hoogte is van de gegevens in de score dan moet dat in het onderzoek ook gebeuren.
Oefening 3
Patiënten in de huisartspraktijk met symptomen die kunnen duiden op een myocardinfarct (MI) worden doorverwezen voor additionele diagnostiek. Echter, slechts een deel van de doorverwezen patiënten blijkt een MI te hebben. De leeftijd van de patiënt kan gebruikt worden als ‘test’ of een MI waarschijnlijk is. In de tabel op blz. 48 van het blokboek wordt de leeftijd weergegeven van 100 patiënten met een verdenking op een MI met de daadwerkelijke aanwezigheid of afwezigheid van een MI.
Bereken de sensitiviteit en specificiteit bij het doorverwijzen van patiënten die 65 jaar zijn of ouder.
| MI+ | MI- |
Test+ | 17 | 41 |
Test- | 4 | 38 |
Sens = 17/21 = 0,81
Spec = 38/79 = 0,48.
FP = 1- spec = 0,52.
Bereken de sensitiviteit en specificiteit bij het doorverwijzen van patiënten bij meerdere afkappunten, namelijk:
Van 50 jaar of ouder.
| MI+ | MI- |
Test+ | 20 | 60 |
Test- | 1 | 19 |
Sens: 20/21 = 0,95.
Spec: 19/79 = 0.24.
Van 60 jaar of ouder.
| MI+ | MI- |
Test+ | 19 | 47 |
Test- | 2 | 29 |
Sens = 0.90.
Spec = 0.39.
Van 70 jaar of ouder.
| MI+ | MI- |
Test+ | 17 | 36 |
Test- | 4 | 43 |
Sens = 0,81
Spec = 0,54
Van 80 jaar of ouder.
| MI+ | MI- |
Test+ | 12 | 19 |
Test- | 8 | 61 |
Sens = 0.57
Spec = 0.76
En zet deze in een ROC curve (y-as is sensitviteit = terecht positief, x-as = 1-specificiteit = vals positief).
Een ROC curve wordt gemaakt door allerlei afkappunten in te plotten.
Samenvatting:
Diagnostiek in de praktijk.
Onzekerheid reduceren.
Bepaalt prognose & bepaalt beleid.
Diagnostisch onderzoek.
Opzet:
Observationeel.
Descriptief.
Cross-sectioneel:
Gelijktijdige bepaling determinant en uitkomst (referentie standaard).
Altijd onderzoek naar > 1 determinant.
Uitvoer:
Bepaling determinanten als in praktijk.
Bepaling ziektestatus & determinant status met wederzijds blinderen.
Analyse:
Univariaat (per determinant).
Multivariaat: combinatie van testuitslagen in relatie tot uitkomst.
Eindpunt = f (combinatie van determinanten).
Toegevoegde waarde bepalen; minst belastende testen eerst analyseren (conform praktijk).
Rapportage:
Met name toegevoegde waarde van de test.
Bij prognostisch onderzoek gaan we ervanuit dat de diagnose die gesteld is, juist is. Een voorbeeld:
Een man van 65 heeft net een hartinfarct gehad. U neemt anamnese af, doet lichamelijk onderzoek en voert verschillende tests uit. U behandelt hem met o.a. streptokinase. Zijn ‘high sensitive C-Reactive-Protein’ is verhoogd.
Het gaat bij prognostisch onderzoek om het inschatten van een kans, en de prognostiek kans is een alles of niets verschijnsel: wel/geen leven na een bepaalde tijd of wel/geen recidief na een bepaalde tijd.
De patiënt is natuurlijk niet geïnteresseerd in de determinanten, maar wel in de uitkomst.
Definitie van prognose: het beloop van een ziekte. In prognostisch onderzoek ga je na welke determinanten het beloop voorspellen. Er zit een tijdsdimensie in, dat is het verschil met een diagnose.
Vanuit de arts gezien is de prognose belangrijk om de behandeling op af te stemmen: curatief, preventief of palliatief bijvoorbeeld. Een patiënt kan er bijvoorbeeld zo slecht aan toe zijn dat je een bepaalde behandeling liever niet meer geeft, maar liever een palliatieve behandeling start. Welke factoren voorspellend zijn voor een slechte uitkomst valt onder prognostisch onderzoek. Als men ziekenhuizen wilt vergelijken moet men ook rekening houden met verschillen in prognostische factoren. Het perspectief van de arts en patiënt zijn het belangrijkste.
Uitkomsten in prognostisch onderzoek:
Niet: relatieve risico’s, odds ratio’s, gemiddelde 5-jaars overlevingen.
Wel: individuele schattingen van absolute kansen op sterfte, ziekte, recidief, goede kwaliteit van leven. Dus een schatting aangepast aan de individuele patiënt. Een patiënt met veel risicofactoren, heeft een hogere kans om te overlijden i.t.t. de kans van een jong iemand. Het gaat dus om schattingen, maar aangepast aan het individu. Er zijn allerlei uitkomsten die belangrijk zijn voor medisch onderzoek, recidief, kwaliteit van leven, etc.
Een uitkomst moet relevant zijn voor de patiënt, maar ook voor de arts. Het moet concreet zijn, je moet je er iets bij voor kunnen stellen. Bloedspiegels zijn heel duidelijk, maar het is niet het doel dit te gaan voorspellen. Wat we wel willen is bijvoorbeeld pijn of dagelijks functioneren.
Prognose in de praktijk begint bij de patiënt met de ziekte. Er wordt een schatting gemaakt van het verwachte beloop van de ziekte.
Voorbeeld: wat is de kans dat een kind van 2 jaar met een bacteriële meningitis:
Doodgaat aan de ziekte
Complicaties krijgt
Beperkingen overhoudt?
We kennen uitkomsten ‘gunstig’ of ‘ongunstig’ toe. Er zijn ook prognostische modellen waarin de uitkomst meer verfijnd wordt, waarbij er meerdere categorieën zijn waarin een patiënt terecht kan komen.
De prognose van de patiënt wordt bepaald aan de hand van scoringssystemen. Er is wetenschappelijk onderzoek nodig, epidemiologisch onderzoek. Er worden groepen mensen gevolgd en op basis daarvan worden percentages bepaald en die acht je weer van toepassing op een individuele patiënt. De kern van een regressiemodel is y=a+bx. X staat voor risicofactor, a is het intercept, de basiskans, b staat voor het gewicht van een bepaalde risicofactor en y is de kans van de patiënt. Uiteindelijk kom je tot een score voor die unieke patiënt. Dit bepaal je dus op basis van een regressiemodel.
Het nadeel van zo’n scoringssysteem is dat je altijd uitgaat van een beperkt aantal karakteristieken. Een heleboel andere unieke patiëntinformatie moet je achterwege laten. Aan de andere kant is dit een voordeel omdat het anders in de praktijk niet meer hanteerbaar zou zijn. Het voordeel is dus dat je een regel hebt met betrekkelijk weinig informatie (wel kernachtige variabelen) op basis waarvan je een goede inschatting kan maken van de prognose. Het is een hanteerbare regel, maar daardoor is het ook objectief. Als arts laat je misschien je eigen ervaringen meewegen in prognostische inschattingen. Zo’n regel is gebaseerd op regels in een computer, en dus objectief. Ook dit is weer een nadeel omdat je subjectief niet goed meer kan inschatten.
Een voorbeeld is de apgar score; een simpel toepasbaar systeem waaraan iedereen is blootgesteld. Dit is dus niet op basis van ziekte, maar voor de gehele bevolking. Apgar: ademhaling, pols, spierspanning, aspect van de huid, reactie op prikkels of reflexen.
Voorbeeld 1
Kind met meningitis (zie ook HC2 – diagnostisch onderzoek). Welke factoren voorspellen neurologische complicaties of sterfte na bacteriële meningitis?
Sterfte of leven met ernstige complicaties in de gehele groep bedraagt 15% in de eerste 6 maanden.
Mogelijke predictoren (veel hogere of veel lagere sterfte):
Mannelijk geslacht: 20%. Dit betekent dat kinderen van het vrouwelijk geslacht een gunstigere uitkomst hebben.
Atypische convulsies: 30%.
Hogere temperatuur: 10%. Dit blijkt dus een beschermende factor te zijn. De kans om binnen een half jaar te overlijden of ernstige neurologische complicaties over te houden blijkt lager te zijn.
Streptococcus pneumoniae: 40%.
Neisseria meningitidis: 20%.
Er wordt gesproken van mogelijke predictoren omdat je er rekening mee moet houden dat de ene factor deels bepaald kan worden door een andere: confounders. Misschien speelt geslacht wel helemaal geen rol.
In multivariate modellen worden punten toegekend aan bepaalde risicofactoren. De relatie tussen de totale score en de kans binnen 6 maanden een neurologische complicatie te krijgen of komen te overlijden na een bacteriële meningitis wordt bepaald.
Oefening 1
Over de afgelopen decennia hebben talloze patiënten in de wereld een Björk-Shiley hartklepprothese ontvangen. Nu blijkt uit een studie dat er een kleine kans bestaat dat deze klep breekt. Als dat gebeurt, moet de patiënt acuut geopereerd worden, anders sterft hij/zij aan de klepbreuk. De sterfte onder patiënten met een klepbreuk is rond de 70%. In de studie is ook een predictiemodel ontwikkeld om voor iedere patiënt de kans op klepbreuk te bepalen. Men zou uit voorzorg bij iedereen met een Björk-Shiley hartklep deze klepprothese kunnen vervangen; echter het vervangen van een hartklep brengt ook risico’s met zich mee. Om dus een goede afweging te maken of de klepprothese al dan niet vervangen moet worden, is naast de kans op een klepbreuk ook een voorspelling op sterfte na vervanging van een hartklepprothese nodig.
U wordt gevraagd een onderzoek naar zo’n predictiemodel voor het risico van hartklepvervanging op te zetten.
Wat is de onderzoeksvraag?
Welke factoren voorspellen de 30 dagen sterfte na een kunstklepvervanging?
Wat zijn domein, determinant, en uitkomst van de studie?
Domein: patiënten met een Björk-Shiley prothese (en met hoog risico op klepbreuk).
Determinant: alle voorspellende factoren.
Voorbeeld: leeftijd, type klep die vervangen moet worden, endocarditis, linker ventrikel functie, eerdere HVZ, emergency, aorta vervanging en tricuspidalis vervanging.
Uitkomst: Sterfte binnen 30 dagen na operatie ja of nee.
Een soortgelijke studie is al eens gedaan. Zie tabel 1 op blz. 52 in blokboek.
Wat is de 30 dagen sterfte voor de gehele groep patiënten?
6,8%. Er moet gekeken worden naar de gehele groep, hiervan zijn er een aantal overleden en deze deel je op het totale aantal van de groep. Hier komt 6,8% uit.
Hoe groot is de kans dat iemand die met spoed wordt geopereerd in de eerste 30 dagen na hartklepvervanging sterft?
Op basis van de eerste tabel 37,3% kans.
Wat zijn de sterkste voorspellers van 30 dagen sterfte na hartklepvervanging?
Emergency want daar krijg je 6 punten voor, ook leeftijd omdat er een grote range is (van -2 tot 2), dubbele klep en slechte linker ventrikelfunctie krijgen drie punten dus die zijn ook belangrijk.
Denkt u dat deze factoren ieder een onafhankelijke rol hebben? Leg uit waarom wel/niet.
Ze hebben wel een onafhankelijke rol, maar je kan hier niks mee in het voorspellen van de prognose. Dit omdat alle factoren samen het risico bepalen in de praktijk.
Risicofactoren gaan vaak samen, bijvoorbeeld endocarditis en spoedoperatie, leeftijd en coronair lijden.
Bereken de kans op 30 dagen sterfte bij het vervangen van de klepprothese voor de volgende patiënten:
Man, 65 jaar, slechte linker ventrikel functie en coronair lijden met een aortaklepprothese.
1+3+2 = 6 → 15%.
Vrouw, 45 jaar, met een mitraalklepprothese.
-1+2=1 → 3,2%.
Vervolg college
De onderzoeksvraagstelling in prognostisch onderzoek sluit altijd aan bij de praktijk. Met een beperkt aantal eenvoudige, veilige en niet te dure testen (determinanten c.q. gegevens) wordt de absolute kans op een bepaald beloop en een bepaalde uitkomst geschat. Het domein en de onderzoekspopulatie zijn begrippen die vergelijkbaar zijn met die bij diagnostisch onderzoek. Het domein geeft aan waar men het onderzoek wilt toepassen, de studiepopulatie geeft een steekproef aan uit het domein, dit moet representatief zijn. Het design van prognostisch onderzoek verschilt van dat van diagnostisch onderzoek. Het betreft namelijk een cohort-onderzoek. Een cohort is een groep die gevolgd wordt in de tijd. De expositie is aanwezig voor de uitkomst. Determinanten leiden tot een uitkomst. Het onderzoek is observationeel en descriptief. Meestal zijn er meer dan 1 determinanten betrokken. Prognostisch onderzoek is ook puur observationeel onderzoek, er wordt geen factor gemanipuleerd.
Belangrijk:
Selectie van potentiële predictoren.
Dit kan uit kennis, literatuur.
Beperken van loss-to-follow-up.
Beperken van missings.
Voldoende groot onderzoek.
Minstens 10 events per potentiële predictor.
Beperkt aantal predictoren (scores).
Beschikbare data per patiënt:
Determinanten.
Beloop/uitkomst.
Men analyseert de data en wil tot een soort samenvatting komen, dit wordt uiteindelijk een scoringssysteem. Data analyse bestaat uit een aantal stappen:
Beschrijven van de relatie determinant-uitkomst.
Univariate analyse determinant-uitkomst relatie en eventueel selectie van predictoren (p<0,20).
Multivariate analyse waarbij predictoren samen in model opgenomen zijn.
Onafhankelijke invloed van predictoren.
Stapsgewijs toevoegen van predictoren.
ROC curve.
Omzetten statistisch model naar risico score met bijbehorende kansen.
Vaak wordt het effect van een factor minder wanneer je corrigeert voor een andere, omdat ze soms samen gaan (bijv. Roken en dieet). In een model moet dus voor factoren gecorrigeerd worden.
Een rapportage is een tabel waarin per kandidaat variabele kan worden afgelezen…
Oefening 2
Bij het kiezen van een behandeling speelt de prognose van de patiënt ook een belangrijke rol. Daar gaat deze oefening over.
Casus
Een man van 60 jaar, die reeds driemaal een hartinfarct heeft gehad, krijgt ‘snachts plotseling een onaangenaam gevoel achter zijn borstbeen. Hij ervaart dit als pijnlijk en drukkend en voelt zich misselijk, zweterig en duizelig. De patiënt wordt met de ambulance naar het ziekenhuis gebracht. Onderweg maakt het ambulance personeel een 12-afleidingen elektrocardiogram (ECG), waarop de totale ST elevatie 1.5 milivolt (mV) is en de QRS duur 130 miliseconden. Zowel deze uitslag als het klinisch beeld duiden op acute myocard ischemie. Op basis van de ECG bevindingen blijkt het om een infarct van de voorwand te gaan.
De dienstdoende cardioloog staat voor de afweging of de patiënt een behandeling met trombolyse moet ondergaan. Het is bekend dat trombolyse (het oplossen van de thrombus die het infarct veroorzaakt) de mate van verdere infarcering van het hartweefsel kan beperken. Het kan echter ook tot bloedingen leiden. Om deze afweging goed te kunnen maken heeft de cardioloog inzicht nodig in de prognose van de patiënt, met en zonder trombolyse behandeling.
U wordt gevraagd hiervoor een prognostisch model te ontwikkelen.
Wat is de onderzoeksvraag?
Is trombolyse een mogelijke voorspeller voor de overleving van patiënten die op de SEH komen met een acuut myocardinfarct?
Wat zijn onderzoeksontwerp, domein, determinant, en uitkomst van uw studie?
Onderzoeksontwerp: cohortstudie.
Domein: patiënten met een acuut myocardinfarct op SEH.
Determinanten: eerder doorgemaakt MI, ST-elevatie, leeftijd, locatie van het infarct, trombolyse al dan niet geven.
Uitkomst: Sterfte binnen 3 jaar ja of nee.
Een van de manieren om een prognostisch model te ontwikkelen is door gebruik te maken van bestaande data. Op de volgende bladzijde vindt u de lange termijn resultaten uit een gerandomiseerde trial waarin 533 patiënten met een doorgemaakt hartinfarct tussen 1981 en 1985 werden gerandomiseerd naar behandeling met trombolyse (d.m.v. streptokinase) of zonder trombolyse. De tabel geeft aan welke determinanten voorspellende waarde hadden voor de uitkomst. Voor iedere variabele ziet u de regressie-coëfficient en de odds ratio.
Wat betekent het woord ‘onafhankelijke’ in de titel van de tabel?
Onafhankelijk betekent niet verstoord door, of niet afhankelijk van, andere prognostische factoren.
Waar is de odds ratio een schatting voor?
De OR is een schatting voor het risico bij mensen met de determinant t.o.v. mensen zonder de determinant.
Wat betekent de term ‘gecorrigeerde OR’?
De gecorrigeerde OR is de OR rekening houdend met de verdeling van andere prognostische factoren.
De gecorrigeerde regressie-coëfficient is gewicht van een factor.
Aan de hand van de regressie-coëfficienten kan men voor iedere patiënt met een acuut myocardinfarct zijn kans op sterfte binnen drie jaar uitrekenen via de volgende formule:
kans=11+e-[-1.99+1.02*X1+0.61*X2+0.45*X3+-0.60*X4]
Voor een vrouwelijke patiënt van 60 jaar met een eerste onderwand infarct en ST-elevatie van 1 mV is deze kans gelijk aan (X1=0, X2=0, X3=1 en X4=1) 0.11.
Bereken aan de hand van de tabel de 3-jarige sterftekans voor de patiënt uit de casus.
X1 = eerder doorgemaakt myocardinfarct. Dit heeft hij. 1 punt
X2 = ST-elevatie > 1.2 mV heeft hij (1.5). 1 punt
X3 = Leeftijd > 55 jaar. Dit heeft hij (60 jaar). 1 punt
X4 = Inferieure infarct locatie. Dit heeft hij niet, hij heeft aan de voorwand. 0 punten.
Uit de berekening komt 52%.
Wat zegt de odds ratio van 0.67 over het effect van behandeling met trombolyse?
Dat men een kans heeft van 0,67 maal zo groot op sterfte wanneer behandeld met trombolyse. Dit is dus een negatieve kans, en werkt dus beschermend.
ln0,67 is een p-waarde. Dit is 0,4.
Wat wordt de 3-jaarssteftekans voor de patiënt uit de casus wanneer u zou trombolyseren? Wanneer u dit vergelijkt met de sterftekans zonder behandeling, zou u als cardioloog deze patiënt dan trombolyseren? Waarom wel/niet?
Uitkomst vraag 4 x 0,67 = 34,8%. Je moet eigenlijk de p-waarde invoeren in de formule aan het eind als -0,40x1. De sterftekans verandert nauwelijks (reductie van 10%), dus de prognose verbetert ook nauwelijks. Er zitten ook risico’s aan trombolyse (bijvoorbeeld bloedingen) en die wegen hier zeer waarschijnlijk zwaarder dan de voordelen.
Dan ga je dus wel trombolyseren omdat de kans sowieso kleiner wordt, 0,67 is een verkleinende factor.
De volgende informatie is afkomstig van http://ubugeneeskunde.wordpress.com/onderwijs/gnk/akwo/.
Weergave van de resultaten
Pubmed toont standaard de resultaten als summary met 20 tegelijk. De meest recente artikelen staan bovenaan. Via het menu ‘display settings’ kan worden aangeven hoeveel resultaten men wilt zien. Hoe meer resultaten Pubmed laat zien, hoe minder tijd men verliest door van scherm te wisselen. Ook het ‘format’ van de resultaten kunnen in dit menu worden aangepast. Dit kan ook allemaal voor een individuele treffer.
MeSH termen
Elke referentie in Pubmed krijgt trefwoorden toegewezen. Dit proces wordt ‘indexering’ genoemd. Deze trefwoorden staan bekend als MeSH-termen, dit staat voor Medical Subject Headings. Wanneer je via display settings sorteert op auteursnaam of titel komen de treffers die reeds geïndexeerd zijn bovenaan te staan. Wanneer je een treffer geslecteerd hebt en je klopt op het menu ‘publication types, MeSH terms, substances’, kun je zien welke trefwoorden aan deze treffer zijn toegekend.
MeSH database
De MeSH database is een aparte databank voor MeSH-termen. Hierin staan alle MeSH-termen die in PubMed als treffer gebruikt kunnen worden. Deze database kan rechts onderin het beginscherm van PubMed gevonden worden, onder het kopje ‘more resources’. Het is belangrijk je te realiseren dat je hierbij niet zoekt in de databank met artikelen, maar in de databank met trefwoorden. De MeSH-termen zijn georganiseerd in een boomstructuur waarin een bepaalde MeSH-term in verschillende ‘bomen’ kan voorkomen. De informatie in de MeSH database kan gebruikt worden om een zoekactie te verfijnen. Soms kunnen er synoniemen gevonden worden, of ideeën om een zoekactie te verfijnen of uit te breiden. Vanuit de MeSH database kan ook direct gezocht worden in PubMed m.b.v. de PubMed search builder. Er zitten nadelen aan het zoeken met MeSH-termen, ten eerste wordt de MeSH-database elk jaar aangepast, er worden dan MeSH-termen toegevoegd en verwijderd. Aan reeds geïndexeerde artikelen wordt dan echter niet automatisch ook een nieuwe MeSH-term toegekend, deze artikelen worden dus niet gevonden bij het zoeken op de nieuwe MeSH-term. Een ander nadeel is dat aan de meest recente artikelen nog geen indextermen zijn toegekend. Ook deze artikelen worden dus gemist bij het zoeken op MeSH-termen.
Automatic Term Mapping
PubMed zet ingevoerde zoektermen zo mogelijk automatisch om naar MeSH termen, dit wordt automatic term mapping genoemd. Vervolgens zoekt PubMed zowel op de ingevoerde zoekterm, als op de overeenkomstige MeSH-term. Om te controleren wat er gebeurd met de zoekterm die je gebruikt, kun je kijken naar ‘search details’. Hierin kunnen aanpassingen gemaakt worden.
Zoeken in velden
Er kan gezocht worden op auteursnaam (au), tijdschrifttitel (ta) en titel/abstract (tiab). De veldnaam kan tussen vierkante haken achter de zoekterm gezet worden. Hiervoor kan ook gebruik worden gemaakt van de search builder in de advanced search. M.b.v. AND, OR en NOT kan aangegeven worden hoe termen met eerder toegevoegde zoektermen gecombineerd moeten worden.
Truncatie en aanhalingstekens
Met behulp van een asterisk (*) kunnen termen met een andere uitgang of alternatieve spelling opgepikt worden. Als er meer dan 600 woorden of woordcombinaties worden gevonden, geeft PubMed een waarschuwing, dan worden niet alle variaties meegenomen in de zoekactie. De zoekterm moet dan worden aangepast, bijvoorbeeld door een langere woordstam in te voeren of zelf woordvarianten in te voeren.
Aanhalingstekens kunnen gebruikt worden als een zoekterm uit meer dan 1 woord bestaat, hiermee wordt voorkomen dat PubMed de woorden ook los van elkaar zoekt. Een paar aandachtspunten voor het werken met PubMed zijn:
PubMed herkent alleen dubbele aanhalingstekens, dus ‘’.
Bij gebruik van truncatie of aanhanlingstekens worden de zoektermen niet automatisch meer omgezet naar MeSH termen.
Combineer nooit truncatie en aanhalingstekens.
Zoektermen combineren
In PubMed kunnen zoektermen gecombineerd worden m.b.v. AND, OR en NOT. Bij AND zoekt PubMed naar beide termen in één artikel, bij OR zoekt PubMed naar artikelen waarin één van beide termen, of allebei, voorkomen en bij NOT zoekt PubMed naar artikelen waarin de eerste term wel, maar de tweede term niet voorkomt. Ter illustratie (http://ubugeneeskunde.wordpress.com/2010/08/11/pubmed-3-3/):
Bij gebruik van meer dan 2 zoektermen kunnen haakjes gebruikt worden.
Search history
Bij uitgebreide zoekacties wordt gebruik van haakjes ingewikkeld, waardoor men beter kan zoeken met afzonderlijke zoektermen en deze later kan combineren. Hiervoor kan gebruik worden gemaakt van de functie search history bij Advanced search. Hier kan een lijst gevonden worden met alle zoekacties die in dezelfde sessie zijn uitgevoerd. M.b.v. preview kan gezien worden hoeveel treffers een gecombineerde zoekactie oplevert.
Limits
M.b.v. de functie limits kan de zoekactie (na uitvoering) verder ingeperkt worden. De zoekactie kan dan bijvoorbeeld beperkt worden tot bepaalde soorten publicaties, leeftijdsgroep, of belangrijkste tijdschriften. Nadeel is dat er al snel een te sterkte inperking van de zoekresultaten optreedt. De Limits zijn bovendien gebaseerd op MeSH-termen, waardoor recente artikelen gemist kunnen worden. De limits blijven gelden, tot ze verwijderd worden.
Zoekfilters
Dit kan m.b.v. clinical queries die in het beginscherm van PubMed ingesteld kunnen worden. Hier kan gezocht worden m.b.v. 3 verschillende filters: clinical study categories, systematic reviews en medical genetics. Bij de clinical study categories kan worden aangegeven binnen welk domein men wil zoeken (etiologie, diagnose, therapie, prognose, etc.). Ook kan worden aangegeven of de zoekactie sensitief moet zijn (‘broad’) of specifiek (‘narrow’). Het filter voor systematic reviews zoekt naar systematic reviews. Review: een overzichtsartikel dat niet per se evidence-based is, systematic review: een overzicht van primaire onderzoeksartikelen waarbij gebruik wordt gemaakt van expliciete en reproduceerbare methoden. Systematic reviews (in PubMed) zijn dat deel van de 20 miljoen treffers in PubMed dat voldoet aan het door NLM opgestelde filter.
Filters zijn handig omdat ze op een snelle manier de zoekresultaten inperken, ze zijn echter gebaseerd op het denkwerk van anderen en het is dus maar de vraag of ze optimaal zijn voor een specifieke zoekvraag.
Een bekend artikel terugvinden
Dit kan m.b.v. de optie single citation matcher in het beginscherm van PubMed, onder PubMed Tools. Hierin kunnen gegevens ingevoerd worden van de publicatie.
Related citations
Dit blok zijn artikelen over hetzelfde onderwerp, vaak ook van meer recente datum, als het artikel wat je bekijkt. Standaard worden 5 artikelen getoond, en via de link See all kunnen ook meerdere artikelen bekeken worden.
Citatiezoeken
Via Web of Science en SCOPUS kan men opzoeken hoe vaak een bepaald artikel geciteerd is in andere artikelen (times cited). Door op het getal te klikken kan men zien door welke (recentere) artikel dit artikel is aangehaald en dus over hetzelfde onderwerp gaan. In SCOPUS worden vaak een groter aantal citaties gevonden dan in Web of Science, dit komt omdat SCOPUS een meer medische dekking heeft.
Bewaren van zoekresultaten en zoekgeschiedenis
Het is verstandig om zoekgeschiedenis te bewaren omdat men dan later kan verantwoorden hoe men aan zoekresultaten is gekomen. De informatie kan bewaard worden in de search history via de print-screen functie van de browser of gekopieerd worden naar een tekstbestand. Met de RSS functie kan een RSS-feed van de zoekactie gegenereerd worden en met de Save Search functie kan de zoekactie opgeslagen worden in een MyNCBI-account. Met een dergelijke account kan de zoekactie in een later stadium nog eens herhaald worden of kan men zichzelf laten attenderen op nieuwe artikelen over het onderwerp. Om artikelen tijdelijk op te slaan (8 uur) kan men op send to klikken en dan bewaren in Clipboard. Om de zoekactie permanent op te slaan, kan deze bewaard worden in MyNCBI (via send to naar collections).
Literatuurmanagementprogramma’s
Zoekresultaten kunnen geëxporteerd worden naar een programma voor literatuurmanagement. De referenties staan dan overizichtelijk bij elkaar, ze kunnen geordend en ontdubbeld worden, en bij het schrijven van een artikel kunnen eenvoudig citaties ingevoegd worden en een literatuurlijst aangemaakt worden. De universiteit ondersteunt RefWorks en EndNoteWeb:
RefWorks. Om hiervan gebruik te maken moet men eerst een account aanmaken. Informatie voor gebruik van RefWorks kan gevonden worden in de Universiteitsbibliotheek.
EndNoteWeb. Dit programma is onderdeel van ISI Web of Knowledge, ook Web of Science is hier onderdeel van. Men kan er toegang tot krijgen via Web of Science. Ook hiervoor moet eerst een account aangemaakt worden.
ROC curves in diagnostisch en prognostisch onderzoek
Stel dat er één test is en dat deze test continue is (dus alle uitslagen kan aannemen), dan hoopt men dat deze uitslagen iets zeggen over de aan- of afwezigheid van ziekte. Het liefste wilt men een test die perfect onderscheid kan maken tussen zieken en niet-zieken, de drempelwaarde is dan perfect. In die situatie zullen specificiteit en sensitiviteit beide 100% zijn. In werkelijkheid ligt het vaak anders. Testen zullen zelden volledig discrimineren tussen zieken en niet-zieken, er is altijd overlap. Op het moment dat er op een bepaald punt een cut-off gekozen wordt, worden er fouten gemaakt. Wordt de drempelwaarde te hoog gelegd, dan krijgen een aantal gezonden een positieve test uitslag (vals positief) en er zijn een aantal zieken die fout-negatief uitvallen. Er ontstaat een 2 bij 2 tabel waarmee specificiteit en sensitiviteit kunnen worden uitgerekend. Stel dat de drempelwaarde lager gelegd wordt, dan namen de fout-negatieven af, maar de fout-positieven nemen toe. Op het moment dat er een lagere drempelwaarde wordt gekozen, wordt de sensitiviteit dus beter maar de specificiteit neemt af. Op het moment dat men dit experiment vaak genoeg zou herhalen, kunnen er voor allerlei drempelwaarden de sensitiviteit en specificiteit worden uitgerekend. Dit kan dan uitgezet worden in een ROC curve. Er wordt dan een patroon gezien: op het moment dat de sensitiviteit omhoog gaat, gaat de specificiteit omlaag, en vice versa. Wanneer er complete overlap is, is de ROC curve een lineaire lijn die niet informatief is. Op het moment dat er onderscheid ontstaat tussen de twee verdelingen, ontstaat er curves die richting de linkerbovenhoek lopen. Op het moment dat er een situatie is waarbij ze helemaal uit elkaar liggen (de perfecte test), dan loopt de ROC curve recht naar de linker bovenhoek en horizontaal verder. Op het moment dat er sprake is van een multivariabel model worden alle determinanten gecombineerd tot één nieuwe superdeterminant waarmee hetzelfde gedaan kan worden. Als de score wordt uitgerekend voor iedere patiënt, hoopt men dat de score anders is onder de zieken dan onder de niet-zieken. Hoe beter het model onderscheid kan maken, hoe mooier de ROC curve is.
Etiologisch onderzoek
Hier onderzoekt men nog steeds hoe een determinant samenhangt met de uitkomst, alleen kijkt men nu naar het oorzakelijke verband. Men wilt weten of de determinant verantwoordelijk is of beschermend werkt e.d. voor de opgetreden uitkomst. Dit is anders dan in de diagnostiek en prognostiek, daar zoekt men geen oorzakelijk verband. Testen zijn veel meer een consequentie van de ziekte. Hier vragen we ons af of we een oorzakelijke relatie zien. Ziektes die veel voorkomen worden vaak veroorzaakt door een combinatie van allerlei risicofactoren die elkaar al dan niet versterken. Het oorzakelijke verband is vaak moeilijk te bepalen.
Kenmerken etiologisch onderzoek
De onderzoeksvraag bij etiologisch onderzoek luidt als volgt: is er een relatie tussen een determinant (risicofactor) en een ziekte-uitkomst? Kenmerken van etiologisch onderzoek zijn:
Verklarend onderzoek.
Dit i.t.t. descriptief onderzoek.
Het wil causaliteit aantonen (oorzaak-gevolg-relatie).
Oorzaak komt voor gevolg. Men wilt bij etiologisch onderzoek dat de oorzaak voor het gevolg komt. In sommige onderzoeken is het lastig dit uit elkaar te houden. Stel dat men op zoek is naar cannabis gebruik en het krijgen van schizofrenie in de vorm van een cross-sectioneel onderzoek onder mensen rond de 30 jaar. Er wordt gevraagd aan deze mensen of zij schizofrenie hebben en daarna wordt het gebruik van cannabis bevraagd. Een gevaar in dit type opzet is dat schizofrenie ook tot een groter cannabis gebruik kan leiden (dus dat de relatie andersom is).
Blootstelling aan de determinant treedt op voordat de ziekte-uitkomst is opgetreden.
Determinant-uitkomst relatie wordt niet door andere factoren verklaard.
Onderzoeksopzet
Er zijn verschillende onderzoeksopzetten: Het mooiste om een oorzakelijk verband te onderzoeken is experimenteel.
Experimenteel. Dit is de mooiste optie om een oorzakelijk verband te onderzoeken. Blootstelling aan de determinant is door de onderzoeker toegewezen. Op het moment dat men het lot laat beslissen wie A of B gaat gebruiken zullen de groepen op elkaar lijken. Voordeel is dat iedereen gelijke blootstelling heeft en dat de andere factoren gelijk gehouden kunnen worden.
Observationeel. Blootstelling aan de determinant wordt niet door de onderzoeker toegewezen.
Er kunnen verschillende designs gebruikt worden (beide observationeel):
Cohortonderzoek. Dit is eigenlijk het meest natuurlijke onderzoeksdesign wat men zich kan voorstellen bij een oorzakelijke vraagstelling. Er wordt gekeken naar mensen die de ziekte nog niet hebben, en dan wordt er vastgelegd wie blootgesteld wordt aan de determinant (bijvoorbeeld roken) en dan wordt dit nauwkeurig vastgelegd en wordt er gekeken waar men in geïnteresseerd is. Omdat er bij de blootstelling begonnen wordt, moet er gewacht worden tot er een uitkomst optreedt, hierom wordt het ook wel follow-up onderzoek genoemd. De definitie van cohortonderzoek luidt als volgt: ‘Onderzoek waarin personen op basis van hun blootstelling aan een determinant en vrij van de ziekte-uitkomst bij aanvang van het onderzoek in de tijd gevolgd worden om het optreden van de ziekte-uitkomst vast te stellen.’
Er wordt een cohort gemaakt van mensen die de ziekte nog niet hebben gehad (om beïnvloeding door andere factoren te voorkomen), en dan wordt gekeken wie wel of niet blootgesteld wordt aan een bepaalde factor (de determinant). Dit wordt vastgelegd en daar vindt een indeling op plaats en wordt gekeken wie de uitkomst wel of niet krijgt. Een voorbeeld is de Framingham Heart Study. Bij 5200 personen tussen de 30 en 62 jaar werd gekeken naar risicofactoren voor hart- en vaatziekten (HVZ). Deze factoren werden elke 2 jaar opnieuw gemeten. Men was o.a. geïnteresseerd in een hoge bloeddruk. Het onderzoek loopt nog steeds. Er kan gekeken worden naar de relatie tussen hypertensie en HVZ. Dit leidt dan tot een 2 bij 2 tabel. De vraag is, wat de kans is op een myocardinfarct (MI), gegeven dat iemand hypertensie heeft. Dit is gelijk aan a/(a+b). Uiteraard kan dit ook gedaan worden voor het risico zonder determinant: c/(c+d). Een belangrijke maat om dan te vergelijken of het een verhoogd risico geeft is het relatief risico (de twee risico’s op elkaar delen). Wanneer er geen verband is, is het relatief risico (RR) 1. Wanneer het hoger wordt houdt dit in dat mensen met hypertensie vaker een MI hebben dan mensen zonder hypertensie. Er wordt een schatting gemaakt op basis van de data. Men moet iets weten over de betrouwbaarheid en zuiverheid van de meting, dan praten we over toevalsvariatie. Dit heeft met name te maken met de grootte van de studie. Een ander probleem is dat de oorzakelijkheid nog niet aangetoond is.
| MI+ | MI- |
Hypertensie+ | a | b |
Hypertensie- | c | d |
Hoe kom je aan je cohort?
Adverteren (domein waarin onderzoek gaat doen speelt mee).
Geografisch (framingham heart study).
Geboortecohort (britisch 1946 birth cohort). Dit is ook een logische stap, mensen nemen die in een bepaald jaar geboren zijn.
Dynamisch cohort (Leidsche Rijn). Dus bijvoorbeeld een gebouw of plek. In de zin van dat je gaat kijken in de Leidsche Rijn, dat er mensen in en uit de studie gaan. Het is in die zin een dynamisch cohort t.o.v. de 2 erboven omdat hier niet later nog mensen bij kunnen komen.
Occupational cohort (Whitehall study). Op het moment dat je bijvoorbeeld weet dat het om asbest blootstelling gaat, dat je kunt kijken naar mensen in een bepaalde beroepsgroep.
Hoe kom je aan de ziekte-uitkomst?
Na een bepaald tijdsinterval vragenlijst toesturen of uitnodigen voor interview of medisch onderzoek.
Via medische dossiers of registraties ziekte-uitkomsten vastleggen.
Patiënt-controle onderzoek. Dit wordt ook wel case-control onderzoek genoemd. Men begint hierbij aan het eind. Er wordt begonnen met de mensen die de ziekte hebben (de cases) en we vergelijken deze met mensen die de ziekte niet hebben (de controles), er wordt dan teruggevraagd naar de determinanten. De definitie luidt als volgt: ‘onderzoek waarin patiënten met de ziekte-uitkomst en een controlegroep zonder ziekte-uitkomst geselecteerd worden en vastgesteld wordt hoeveel mensen in beide groepen tevoren blootgesteld zijn geweest aan de determinant.
Er wordt dus gestart met de uitkomsten van cases en controles, dan wordt er teruggevraagd naar determinanten. Deze methode is efficiënter: het kost minder tijd omdat het op één moment uitgezocht kan worden. Er hoeft niet gewacht te worden tot de cases ontstaan, mensen hoeven dus niet tientallen jaren gevolgd te worden maar er wordt gewoon gekeken naar de uitkomst: mensen met een myocardinfarct. In die zin is het een eenvoudig onderzoek om praktisch uit te voeren. De uitspraken die men aan het eind van het onderzoek wil doen zijn hetzelfde. Er zitten voor- en nadelen aan beide manieren. Het case-control onderzoek kan efficiënter, eenvoudiger en sneller dan het cohort-onderzoek.
Hoe kom je aan je patiënten?
Deze ga je natuurlijk daar zoeken waar je ze gemakkelijk kan vangen: huisarts, ziekenhuis, kankerregistratie, etc. Hier zit meestal een duidelijk startpunt in. Met controles ben je veel vrijer om uit te kiezen in eerste instantie.
Hoe kom je aan je controlegroep?
Huisarts, ziekenhuis, algemene bevolking, etc. Toch is het hier ook van belang heel zorgvuldig om te gaan met de selectie. Op het moment dat je ze zodanig kiest dat blootstelling anders is dan in de patiëntengroep kun je later in de problemen komen. Je wilt dus heel graag dat de patiënten en controles uit dezelfde ‘bron’ populatie komen. Als er door de keuze van de controles een bepaald verband wordt ingebracht die er niet hoort te zitten heb je een probleem.
Hoe kom je aan de determinanten? Je zit dus vast omdat je moet gaan navragen en uitzoeken hoe het zat met de determinanten.
Interview met de deelnemer zelf.
Interview met proxy.
Medisch dossier.
Samenvattend:
Het cohortonderzoek loopt parallel aan de relatie determinant uitkomst. Dit in tegenstelling tot het moment waarop we gaan kijken naar patiënt-controle onderzoek of case-control onderzoek.
Patiënt-controle onderzoek is een totaal ander begin dan cohort-onderzoek maar op zoek naar dezelfde relatie.
Een voorbeeld is de ziekte van Creutzfeldt-Jakob (CJ). Dit is een snelle, progressieve vorm van dementie die opeens ontstond. Het is een ernstig ziektebeeld en er was veel ongerustheid over de oorzaak hiervan. In de jaren ’90 werd in Europa een nieuwe variant ontdekt van Creutzfeldt-Jakob na een epidemie van de gekke-koeien ziekte. Men vroeg zich af of rundvlees de oorzaak was. De onderzoeksvraag zou hier kunnen zijn: is het eten van rundvlees een oorzakelijke factor in het ontstaan van CJ? Hebben mensen die meer vlees eten een hoger risico op het ontstaan van CJ? Er kan hier het beste case-control onderzoek gedaan worden omdat de ziekte vrijwel niet meer voorkomt waardoor cohort-onderzoek niet echt praktisch is. Het grote voordeel van een case-control design is dat cases opgespoord kunnen worden en dat er een controlegroep gekozen kan worden. Daarna wordt gekeken hoeveel rundvlees men heeft gegeten. Het probleem hierbij is dat mensen het niet meer weten (dementie of overleden), dus dan moet er met de partners gepraat worden. Hierbij ontstaat weer een 2 bij 2 tabel:
| CJD+ | CJD- |
Rundvlees + | 90 | 160 |
Rundvlees - | 10 | 40 |
In deze studie-opzet kan echter het relatief risico niet goed bepaald worden. Stel dat er 100 cases verzameld worden, daaraan wordt dan gevraagd hoe het met de consumptie van rundvlees is. Stel dan 90 op de 100 mensen rundvlees hebben gebruikt in de CJ-groep. Voor deze informatie moet al veel moeite gedaan worden via partners, vragenlijsten, etc. Dan wordt er een controlegroep gemaakt, hiervoor worden ongeveer 200 controles verzameld. De groep controles groter maken heeft niet zoveel zin om de precisie te verhogen. Dit omdat er een grens is van nauwkeurigheid die gehandhaaft wordt bij de cases. Het probleem zit dan in de 100. De enige manier om de nauwkeurigheid dan te vergroten is door het aantal van de cases te vergroten. Stel dat de controles een mooie afspiegeling zijn van rundvleeseten in Nederland (idealiter is dit het geval), dan hebben bijvoorbeeld 80% van de mensen rundvlees gegeten. Het relatief risico wordt dan als volgt berekend: (90/250)/(10/50). Dit kan eigenlijk niet meer direct uitgerekend worden omdat er informatie verloren gaat aangezien het geen cohort onderzoek betreft. Wanneer er sprake is van case-control onderzoek werkt men daarom met odds-ratio’s (OR). Deze zegt eigenlijk: kijk naar de odds op blootstelling onder de cases. Stel je voor dat 2 van de 5 mensen ziek worden, dan is het risico op ziekte 2/5. Druk je dit uit in odds, dan geeft men dit aan als 2 versus 3. Er zitten allerlei voordelen aan zo’n odds ratio, hij is op verschillende manieren uit te rekenen. Op het moment dat er geen samenhang zit, ontstaat er een odds ratio van 1. In die zin heeft het dezelfde soort interpretatie: hoe hoger hoe meer rundvlees er wordt gegeten onder de cases.
Drie vormen van vertekening
Termen die worden gebruikt zijn:
Validiteit. Afwezigheid van systematische fouten in opzet, uitvoering of data-analyse van het onderzoek.
Bias. Mate van verstoring van de determinant – uitkomstrelatie als gevolg van systematische fouten. Dit leidt tot een verminderde validiteit. Er zijn drie typen bias in etiologisch onderzoek:
Selectiebias.
Definitie: vertekening van de determinant-uitkomst relatie als gevolg van systematische fouten bij de selectie van onderzoeksdeelnemers (case en/of controles). De determinant-uitkomst relatie is anders voor hen die wel en die niet deelnemen. Er gaat iets mis bij de keuze van de cases en controles waardoor er een afwijkende odds ratio gevonden gaat worden.
Voorbeeld1: pilgebruik en kans op DVT. Patiënten: vrouwen met een DVT opgenomen in het ziekenhuis, controles: gezonde vrouwen tussen 25-45 jaar. Patiënten bleken vaker de pil te slikken, deze zou de oorzaak kunnen zijn van DVT. Een selectiebias kan hierin een rol spelen.
Zodra er aanwijzingen zijn dat een bepaalde blootstelling leidt tot een bepaalde ziekte, kun je zien dat artsen hier ook naar gaan handelen. Vrouwen met DVT klachten die de pil slikken zullen vaker doorverwezen worden dan zij die de pil niet slikken. Door deze selectieve doorverwijzing zullen pilgebruiksters meer kans hebben om als case in het onderzoek te komen en zal effect van pil op DVT overschat worden.
Voorbeeld 2: population-based versus hospital-based onderzoek. Op welke manier zou selectie bias een rol kunnen spelen? Hiermee wordt bedoeld dat onderzoek wordt gedaan alleen in het ziekenhuis, omdat dit makkelijker is.
In het ziekenhuis komen comorbiditeit en ongezonde leefstijl vaker voor dan in de bevolking. De relatie tussen roken en kanker kan bijvoorbeeld onderschat worden door overrepresentatie van controles die roken.
Voorbeeld 3: sterftecijfers zijn vaak lager bij mensen die een baan hebben dan sterftecijfers in de algemene bevolking, doordat mensen die werken gezonder zijn dan mensen die niet werken (‘healthy worker effect’). Er heeft dan al een soort zelf-selectie plaatsgevonden.
De voorbeelden tot nu toe golden voor patiënt-controle onderzoek. In cohort onderzoek zijn deze voorbeelden geen issue, omdat ziekte nog niet is opgetreden bij meting van de determinant. Uitval uit het onderzoek (loss to follow-up) kan wel tot een selectiebias leiden. Dit is vervelend omdat de groep kleiner wordt, maar je bent ook bang dat er een selectieve groep uitvalt en je daardoor een belangrijke groep mist. Bij cohort onderzoek weet je nog niks over wie wel of niet het event gaat krijgen, dus selectie daarvan inbrengen door misschien specifieke mensen met een determinant te selecteren, is buitengewoon moeilijk. In principe weet je dat nog niet. Daarom spelen dit soort problemen veel minder tot niet bij cohort onderzoek.
Informatiebias.
Definitie: vertekening van de determinant-uitkomst relatie als gevolg van systematische fouten bij de meting van de determinant en/of uitkomst.
Voorbeelden: het moment is misschien heel belangrijk. Je begint met de uitkomst en op het moment dat je navraag gaat doen over de determinant kan dat misschien best andersom zijn.
Voorbeelden:
Misclassificatie van determinant.
Zelfrapportage accurater bij cases dan bij controles (of juist andersom).
Misclassificatie van uitkomst.
Ziekte wordt misschien beter gediagnosticeerd bij mensen met de determinant.
Dit komt ook voor bij cohort-onderzoek. Zodra je de determinant weet zou je nadrukkelijker kunnen zoeken bij bepaalde mensen dan bij andere mensen. Dit probeer je altijd zoveel mogelijk te voorkomen, maar het kan voorkomen.
Confounding.
De determinant – ziekteuitkomst relatie wordt verstoord door het effect van een andere factor (de confounder; ‘mixing of effects’). Dit gevaar loop je bij ieder observationeel onderzoek. Mensen kiezen voor een bepaalde blootstelling, maar misschien zijn andere factoren daardoor ook anders. Hier moet rekening mee worden gehouden of hier moet misschien voor gecorrigeerd worden.
Voorbeeld: vroeger dacht men dat een 5e kind op rij een verhoogde kans had op Down-syndroom, maar toen had men nog geen rekening gehouden met de leeftijd van de moeder. Dus vroeger dacht men dat kinderen die later in rij geboren zijn een hoger risico hebben op het syndroom van Down. De leeftijd van de moeder heeft ook een relatie met de kans op Down-syndroom. Uiteraard lopen die twee zaken door elkaar. Als je als vierde kind geboren bent, heb je een oudere moeder dan dat je het 2e kind bent. De confounder is de determinant van de ziekte-uitkomst en is geassocieerd met de determinant. De confounder is geen factor in de causale keten.
Wat doe je tegen bias?
Confounding: kan niet voorkomen worden.
Meten en in data-analyse voor corrigeren.
Informatie-bias: voorkomen tijdens de opzet.
Ziektestatus blind voor determinantstatus.
Medische dossiers i.p.v. zelfrapportage.
Zelfde manier van rapporteren cases en controles.
Selectie-bias: voorkomen tijdens opzet.
Controles selecteren onafhankelijk van determinantstatus.
Goede definitie van source populatie.
Voor en nadelen van cohort en patiënt-controle (PC) onderzoek
Voor en nadelen van cohortonderzoek:
Voordelen:
Oorzaak wordt voor gevolg gemeten.
Weinig gevoelig voor selectie- en informatiebias.
Geschikt bij zeldzame determinant.
Kan meerdere uitkomsten bestuderen.
Nadelen:
Selectieve uitval/loss to follow-up.
Duur en tijdrovend.
Niet geschikt bij zeldzame uitkomst.
Voor en nadelen van patiënt-controle onderzoek:
Voordelen:
Efficiënt en relatief goedkoop.
Geschikt bij zeldzame uitkomst.
Kan meerdere determinanten bestuderen.
Nadelen:
Oorzaak wordt na gevolg gemeten.
Zeer gevoelig voor selectie- en informatiebias.
Niet geschikt om meerdere uitkomsten te bestuderen.
Oefening 1
Op 18 oktober 1995 verraste de Britse Committee on Safety of Medicines (CSM) de wereld met de aankondiging dat 3e-generatie anticonceptiepillen meer kans gaven op het ontstaan van veneuze trombose in vergelijking met de wat oudere 2e-generatiepillen. Het CSM stelde voor om 3e-generatiepillen niet langer voor te schrijven als eerste keuze bij jonge vrouwen. Deze aankondiging was gebasseerd op 3, toen nog niet gepubliceerde onderzoeken en wekte veel protest en onrust.
Vele artsen hadden moeite met het bericht: het zou immers toch zo kunnen zijn dat er systematische vertekening zat in het epidemiologisch onderzoek, en bovendien was geen enkel plausibel biologisch mechanisme bekend. De mededeling stond bovendien haaks op wat de industrie wilde omdat volgens haar 3e generatie anticonceptiepillen juist beter waren dan 2e eneratie wat betreft het optreden van HVZ.
In 1997 werd een biologisch mechanisme ter verklaring van het verhoogde risico voorgesteld: bij een nieuwe proefopzet voor het bepalen van resistentie tegen geactiveerd proteïne C (APC) vond men hogere waarden bij vrouwen die de 3e-generatie pil gebruikten. Ook een aantal andere stollings-afwijkingen bleken net iets minder uitgesproken bij de 2e-generatiepil. In 1999 waren er 13 gepubliceerde patiënt-controle en cohort-onderzoeken met gegevens over de kans op veneuze trombose bij de verschillende soorten contraceptiva; in 10 van deze onderzoekingen vindt men een verhoogd risico van de 3e-generatiepreparaten en in 3 onderzoekingen relatieve risico’s van ongeveer 1.
Ondertussen zijn de verschillende partijen het nog steeds niet met elkaar eens. Zo wordt anno 1999 in het leerboek ‘Clinical Gynecologic Endocrinology and Infertility’ van Speroff, Glass and Kase na een uitgebreide discussie van alle relevante literatuur op pagina 888 geschreven dat:
‘..The apparent differences associated with the new progestins, it is now apparent, were duet o the marketing and preferential prescribing of new products, which influenced the characteristics of the patients for whom the new products were prescribed’.
En in het farmacotherapeutisch kompas 2000/2001 is de 2e-generatiepil het anticonceptiemiddel van 1e keus vanwege het ‘… lager risico op veneuze trombose … 2e generatiepillen zijn bovendien goedkoper dan 3e-generatie pillen’.
Benoem de drie componenten (domein, expositie en uitkomst) van de klinisch epidemiologische vraagstelling van bovenstaand probleem.
Domein: vrouwen in de vruchtbare leeftijd die nog geen diepe veneuze trombose hebben gehad
Determinant: 3-generatie pil t.o.v. 2e generatiepil.
Expositie: 3e generatie anticonceptiepil.
Uitkomst: eerste geval van diepe veneuze trombose.
Welke studieopzet (design) zou u gebruiken om deze vraag te beantwoorden, en waarom?
Patiënt-controle onderzoek omdat het een etiologische vraag betreft over een zeldzame aandoening (bijwerking). Het is niet handig om nu vrouwen te gaan volgen in de tijd omdat het niet regelmatig voorkomt, maar redelijk zeldzaam is. De reden om m.b.v. patiënt-controle onderzoek uit te voeren is vanwege de zeldzaamheid. Cohort-onderzoeken worden anders erg grote projecten.
Zijn er nog andere mogelijkheden?
Cohort-onderzoek.
Gerandomiseerde trial.
Nadeel is dat er in beide gevallen veel vrouwen nodig zijn.
Oefening 2
Deze oefening is gebaseerd op het volgende onderzoek: Key TJ, Sharp GB, Appleby PN, Beral V, Goodman MT, Soda M, Mabuchi K. Soya foods and breast cancer risk: a prospective study in Hiroshima and Nagasaki, Japan. Br J Cancer 1999;81:1248-56.
De kans op borstkanker is verhoogd bij een hoge blootstelling aan endogene en exogene oestrogenen (vrouwelijke geslachtshormonen). Sojavoeding is rijk aan stoffen, die een structuur hebben die erg lijkt op oestrogenen. Deze stoffen heten phyto-estrogenen, en ze hebben zowel een zwak oestrogeen als een zwak anti-oestrogeen werking. Dit heeft geleid tot de hypothese dat een hoge consumptie van phyto-estrogenen door interactie met het oestrogeenmetabolisme de kans op borstkanker zou kunnen beïnvloeden.
De onderzoeksvraag van deze studie is of het eten van sojavoeding de kans op borstkanker verlaagt. Soja wordt traditioneel veel gegeten in Aziatische landen. Omdat er markante verschillen in het voorkomen van borstkanker bestaan tussen Westerse (hogere incidentie) en Aziatische landen wordt al vele jaren gezocht naar een verklaring hiervoor. Waarschijnlijk spelen leef- en voedingsgewoonten een belangrijke rol. Het eten van de traditionele Oosterse gerechten rijk aan soja en sojaproducten (miso, tofu) zou de kans op borstkanker kunnen verlagen en de oorzaak kunnen zijn van de lage incidentiecijfers die in Aziatische landen gezien worden.
Het onderzoek, dat in dit artikel is beschreven, werd uitgevoerd in het cohort van de zogenaamde ‘Life Span Study’, een cohort vrouwen in Hiroshima en Nagasaki, Japan. Een eerder onderzoek in ditzelfde cohort heeft laten zien dat blootstelling aan radioactieve straling de kans op borstkanker verhoogt. Voor de studie in dit artikel maakten de onderzoekers gebruik van voedings-vragenlijsten, die tussen 1969 en 1981 door 34 759 vrouwen uit dit cohort werden ingevuld. Van de vrouwen werd bijgehouden – tot 1993 – bij wie borstkanker was opgetreden. 427 keer werd borstkanker gediagnosticeerd in een totaal van 488 989 persoonsjaren ‘follow-up’.
De resultaten zagen er als volgt uit:
Tofu | Aantal gevallen | Persoonsjaren | Relatieve risico |
Geen tofu | 37 | 52 793 |
|
<=1/week | 139 | 164 476 |
|
2-4/week | 199 | 219 025 |
|
>=5/week | 52 | 52 695 |
|
Benoem de determinant, de uitkomst en het domein van de klinisch epidemiologische vraagstelling.
Determinant: Consumptie van soja (producten).
Uitkomst: (nieuwe gevallen van) borstkanker.
Domein: vrouwen (at risk voor borstkanker).
Wat is het (absolute) risico op borstkanker voor de hele populatie? En wat is het (absolute) risico op borstkanker voor vrouwen die een hoge tofu consumptie hebben?
Absoluut risico: 427/34 759 = 0,0123 1,23%
Risico bij hoge tofu consumptie: 52/52 695 = 98,7 per 100.000 persoonsjaren.
Wat voor type onderzoek is het beschreven onderzoek (etiologisch, diagnostisch, prognostisch, therapeutisch)? Bestaat er kans op ‘confounding’ in het beschreven onderzoek? Noem een mogelijke ‘confounder’ in dit onderzoek.
Het betreft een etiologische onderzoeksvraag. Leeftijd is een mogelijke confounder omdat tofu eters over het algemeen ouder zijn, en een hogere leeftijd geeft een hogere kans op borstkanker.
Een confounder moet een risicofactor zijn voor de uitkomst waarin je geïnteresseerd bent.
Wat is het onderzoeksontwerp (design) van het beschreven onderzoek (follow-up, patiënt controle, gerandomiseerd). De onderzoeksvraag zou ook door middel van een patiënt controle onderzoek onderzocht kunnen worden. Omschrijf voor dezelfde onderzoeksvraag hoe een patiënt controle onderzoek eruit ziet. Wat zou een mogelijk probleem kunnen zijn?
Het betreft een cohort onderzoek. Bij een patiënt-controle onderzoek zou men patiënten met borstkanker vergeleken moeten worden met een steekproef uit het domein. Voor beide groepen wordt dan informatie over tofu consumptie verzameld, bijvoorbeeld via een vragenlijst of een interview. Een probleem is de informatie (recall) bias.
Frequentie: hoe tel je. Associatiematen: vergelijken van tellingen om te kijken of er verschillen zijn.
Er zijn twee typen frequentiematen:
Iemand heeft de ziekte al: prevalentie. Dan tel je dus wie iets heeft.
Iemand krijgt de ziekte in de toekomst: incidentie. Dan tel je dus wie iets krijgt.
Stel u ziet een patiënt met symptomen die mogelijk wijzen op veneuze trombose. Hierbij is men bang dat het stolsel naar de longen gaat: longembolie. Dit kan levensbedreigend zijn. De onderzoeksvraag luidt ongeveer als volgt (diagnostische vraagstelling): wat is de kans op een veneuze trombose gegeven de onderzoeken/testen? Er zijn verschillende prevalantiestudies. Bij prevalentie ga je op een bepaald moment kijken wie iets heeft en wie niet. Dit doe je eigenlijk ook bij diagnostiek; wie heeft de aandoening wel en wie niet. Prevalentie zit tussen de 0 en 1 (of 1-100 bij percentages). Je kan kijken naar de prevalentie vooraf, maar ook na bepaalde testen.
Prevalanetie studies:
Cross-sectionele studies.
Determinant en ziekte op hetzelfde moment gemeten.
Prevalentie.
Aantal personen met de ziekte op een bepaald moment.
Prevalentie (%).
Aantal zieken/totale percentage.
Voorbeelden van prevalentie:
50% van de mensen met de verdenking op longkanker had een laesie op de X-thorax.
In een huisartsenpopulatie van 2500 personen, hadden er 50 astma.
30% van de Nederlanders rookt.
Bij prevalentie zijn ook de volgende zaken van belang:
Interpretatie/relevantie.
Kwantificatie ziektehoeveelheid: a priori kans.
Public health planning.
Issues:
Non-response
Prevalentie van MI.
Prevalentie van dementie.
Selectieve mortaliteit. Een ziekte kan evenveel voorkomen in een populatie maar op het moment van meten van de prevalentie kan het anders voorkomen. Bijvoorbeeld reuma en MI: bij reuma blijf je in leven en deze patiënten kun je dus meten m.b.v. de prevalentie (dwarsdoorsnede), maar patiënten met een MI zijn snel dood, dus daar meet je niet iedereen. Deze moeten wel worden meegenomen in incidentie en hier moet dus rekening mee worden gehouden.
Selectieve mortaliteit. Dit geeft aan dat de mortaliteit geassocieerd is met bepaalde karakteristieken, zoals de leeftijd.
Stel u ziet een patiënt met gediagnosticeerde borstkanker, die vraagt naar haar prognose. De onderzoeksvraag is hier dan: wat is de kans dat ik binnen 5 jaar dood gaat/een recidief krijg? Hieraan kunnen nog feiten worden toegevoegd, zoals vergrootte lymfeklieren etc. Nu hebben we met incidentie te maken, het betreft niet meer een dwarsdoorsnede maar we hebben echt een groep patiënten. Het gaat om het aantal nieuwe gevallen. Ook hier hebben we te maken met een beginpopulatie waar we twee soorten incidentiematen aan kunnen geven. Er zijn twee typen incidentie:
Cumulatieve incidentie. Deze probeert heel dicht bij kansen te blijven. Opnieuw krijgen we hier een getal tussen 0 en 1. We moeten wel iets definiëren over de tijdsperiode. Om dit goed te kunnen definiëren is het bij de cumulatieve incidentie goed om aan te geven om welk tijdsbestek het gaat.
Voorbeelden:
5-jaars incidentie op een tweede MI.
10-jaars overleving bij vrouwen met borstkanker.
1-jaars risico op een fractuur bij osteoporotische vrouwen.
Incidentie dichtheid. Hierbij gaat het aantal nieuwe gevallen afgezet worden tot het aantal persoonsjaren waarin je mensen aan het volgen bent. Je kan hierbij iets meer rekening houden met mensen die uit het onderzoek verdwijnen, waardoor je niet iedereen meer precies 2 of 5 jaar volgt bijvoorbeeld. Dus: het aantal nieuwe ziektegevallen in de populatie gedeeld door de observatietijd. Je kan zien dat dit geen getal wordt tussen 0 en 1.
Cumulatieve incidentie komt heel vaak voor uit een cohort, dus een groep mensen die je gaat volgen:
Groep personen met dezelfde kenmerken.
Alle deelnemers hebben hetzelfde beginpunt (start cohort).
Baseline kan echter wel in de tijd verschillen.
Alle deelnemers worden gedurende een bepaalde tijd vervolgd.
Er gebeuren een aantal dingen gedurende het onderzoek en wanneer je de cumulatieve incidentie wilt uitrekenen. Dit vooral wanneer je mensen niet gedurende de periode kan volgen die je zou willen (door sterfte bijvoorbeeld).
Je zou liever meer effectief gebruik willen maken van alle informatie. Dit is waar de persoonsjaren uit voortkomen. Met de persoonsjaren kan dan nog wel informatie over bijvoorbeeld uitval uit de studie worden meegenomen. De persoonsjaren kunnen gespecificeerd worden. Er kan onderscheid worden gemaakt tussen mensen die je helemaal hebt gevolgd, en mensen die vroegtijdig uit de studie vielen. Dit is de reden dat men veel vaker naar de persoonsjaren toegaat, omdat informatie beter kan worden meegenomen. Dit verandert eigenlijk niks aan de teller, je gaat alleen geen personen tellen, maar persoonsjaren. Dit zit niet meer tussen 0 en 1, maar hangt echt af van wat je waarneemt. Je gaat echt op persoonsniveau een aantal jaren tellen wat je iemand gevolgd hebt. Je telt iedere keer in de noemer het aantal persoonsjaren op en rekent uit wat het is: bijvoorbeeld ongeveer 4,5 persoonsjaar aan follow-up.
Stel u ziet een patiënt met longkanker, die vraagt naar de mogelijke oorzaak. Dit is etiologisch onderzoek, de onderzoeksvraag is dan: is roken een risicofactor voor longkanker? Dan kom je in de situatie dat we twee groepen krijgen: mensen die roken en mensen die niet roken. Binnen elke groep kunnen dan stellingen worden gedaan. Je wilt kijken of ze van elkaar verschillen, dan komen er associatiematen in beeld. Laten we aannemen dat we dit etiologisch onderzoek gaan doen in een cohort-studie. We beginnen dan met het samenstellen van een cohort en daarbinnen de determinant vast te stellen (roken – niet-roken). Daarna wordt gekeken wat nou de incidentie is voor iedere groep. Deze kan weer op verschillende manieren worden uitgerekend: cumulatieve incidentie, of incidentie dichtheid. De hypothese is dat de incidentie hoger is voor de rokers. Stel dat we gebruik maken van de incidentiedichtheid, dan krijgen we een twee bij twee tabel.
PY = person years. Een van de associatiematen is het relatief risico: delen van de incidentiedichtheden op elkaar, om iets te kunnen zeggen over hoeveel hoger dit ligt t.o.v. niet-rokers.
Wat je ook zou kunnen doen is rechtstreeks de twee risico’s van elkaar af te trekken om het verschil te bepalen: het risicoverschil. Dit absolute verschil is heel bepalend wanneer je misschien door wilt rekenen: wat zou er gebeuren wanneer Nederland stopt met roken? Wat voor daling kan dan verwacht worden in het aantal gevallen met longkanker?
Stel patiënt-controle onderzoek, dit begint juist aan de andere kant: bij de uitkomst. Een onderzoeksvraag kan dan zijn: verhoogt roken het risico op longkanker. Zowel onder de cases als de controles wordt dan gekeken wat de frequentie van de determinant is (in dit geval roken) en dit vergeleken.
Hier kan ook een twee-bij-twee-tabel van gemaakt worden en een relatief risico uitgerekend worden. Dit is echter niet correct bij een case-control studie. Dit omdat twee poten apart van elkaar bepaald worden en waar veel meer cases worden ingesloten dan er in werkelijkheid zijn. Wat we wel kunnen doen is de odds ratio (OR) berekenen. Dit zijn de odds op het voorkomen van de determinant bij de cases (a/c) vergeleken met de odds op blootstelling bij een niet-longkanker patiënt (b/d). Dit is een associatiemaat die gebruikt kan worden en waarbij heel duidelijk is wanneer er samenhang is (bij 1 niet, bij lager of hoger dan 1 wel een associatie).
Je kan controles selecteren uit case-control door alle controles bij elkaar op te tellen en hier een bepaald percentage van te nemen. Je wilt controles kiezen zonder dat je de blootstelling verhoogt of verlaagt, zodat je een goede schatting krijgt van rokers en niet-rokers.
Naast het relatief risico, is een ander voordeel van een cohort-studie dat je ook een correcte odds-ratio kan uitrekenen. Dit gaat op precies dezelfde wijze.
Op het moment dat je een cohort-onderzoek doet, kun je relatieve risico’s en een odds ratio uitrekenen. Een relatief risico heeft altijd de voorkeur omdat het makkelijker te interpreteren is. Bij case-control onderzoek kan alleen de OR goed uitgerekend worden.
Er is samenhang tussen het relatief risico en de OR, ze lijken vaak op elkaar. Maar dit gaat eigenlijk alleen maar echt goed wanneer het event waarin je geïnteresseerd bent relatief zeldzaam is. Op dat moment zijn OR en RR vrijwel gelijk. Maar het is altijd zo dat de OR iets extremer is dan de RR. Hoeveel meer hij erboven ligt, hangt af van hoe zeldzaam de uitkomst is.
Meestal worden case-control studies gedaan wanneer de aandoening zeldzaam is. Gelukkig doen we dus vrijwel alleen case-control studies in die situaties, omdat dan het voordeel van deze opzet het meest groot is.
Stel u ziet een patiënt met een verhoogde bloeddruk, die u wilt behandelen met bloeddruk verlagende middelen. Hij vraagt naar de effectiviteit van deze behandeling op de prognose. Onderzoeksvraag: verlaagt behandeling de kans op HVZ?
Dit kan met een interventiestudie (RCT): schat de incidentie dichtheid (of CI) voor iedere groep. Prior: ID (incidentie densiteit) behandelen < ID niet behandelen.
Samenvatting frequentie en associatiematen
Frequentie | Associatie |
Prevalantie | Relatief risico
|
Incidentie
| Odds ratio |
| Risico verschil |
Begrippen:
Betrouwbaarheid. Dit is een begrip wat niet gebruikt moet worden, het is een leken begrip wat staat voor het karakter van een persoon. Iemand is wel of niet te vertrouwen.
Validiteit. Dit staat voor afwezigheid van systematische fouten en bias (vertekening).
Precisie (of nauwkeurigheid). Dit staat voor de afwezigheid van toevalsfouten (ook wel random error) en is afhankelijk van:
Standaardisatie van metingen.
Aantallen:
Personen.
(herhaalde) observaties/metingen.
Uitkomstmaten
Diagnostiek: prevalentie (absoluut risico), posterior kans, Se, Sp, VW+, VW-, OR, AUC.
Prognostiek: incidentie (absoluut risico), OR, AUC.
Etiologie: incidentie (absoluut risico), RR, OR.
Interventie: incidentie (absoluut risico), RR, RD, mean difference, NNT.
Effect schatter. Een enkele effect schatter, bijvoorbeeld RR=1,5 of RR=1,0, geeft niet voldoende informatie omdat het niks zegt over de precisie (nauwkeurigheid).
P-waarden versus betrouwbaarheidsintervallen.
P-waarde. Dit is de kans dat de gevonden associatie nog extremer optreedt, gegeven dat de nulhypothese juist is. De P-waarde wordt vergeleken met (arbitrair, maar meestal is 5%). Stel dat uit een onderzoek een RR van 1,5 komt, hoe belangrijk is dit dan? De P waarde zegt hier iets over. Als deze waarde kleiner is dan 0,005, dan noem je het statistisch significant. Hoe groot is de kans dat de RR 1,5 is. Wanneer deze kans klein is, dan betekent het dat je hier waarde aan mag hechten. P-waarden zeggen dus iets over statistische significantie (dit is iets anders dan klinische relevantie) en zijn afhankelijk van de omvang van het effect en de omvang van de onderzoekspopulatie (dus de nauwkeurigheid van het onderzoek).
Betrouwbaarheidsinterval. Het interval heeft een 95% kans om de ware populatieparameter (bv. de ware OR in je domein) te bevatten. Stel dat je bij 100 personen de bloeddruk meet, en je berekend het gemiddelde uit het onderzoek, dan kijk je waar dit terecht komt. Het betrouwbaarheidsinterval geeft dus iets weer over hoe nauwkeurig je de bloeddruk hebt kunnen meten. Het geeft puur iets aan over de nauwkeurigheid van de meting. Bij meerdere patiënten vergroot je de nauwkeurigheid en wordt het betrouwbaarheidsinterval kleiner. Het betrouwbaarheidsinterval is een objectieve indruk van omvang van het effect van de precisie van de effectschatter.
Voorbeelden P-waarden en betrouwbaarheidsinterval:
Voorbeeld 1: Amerikaanse studie naar afvallen van obese mensen. De interventies zijn: een half uur per dag sporten + eetadvies, of alleen een half uur sporten. Aantallen: 2 keer 10.000 mensen. Het is gerandomiseerd onderzoek, beide groepen hadden een BMI van 30. De interventie werd toegepast en er werd gemeten hoe het met het BMI ging. Aan het eind van het onderzoek stond vast hoe groot de BMI was. De p-waarde van het onderzoek werd heel duidelijk aangegeven. De kans om dit verschil te vinden onder de nul-hypothese (beide behandelingen zijn even goed) was <0,0001. Het BMI werd in groep 1 27,6 en in groep 2 27,8. Dit verschil is dus niet door toeval te verklaren, maar je kunt je hier wel degelijk afvragen hoe klinisch relevant dit is.
Voorbeeld 2: soortgelijke studie in Engeland, nu met 2 keer 50 mensen. BMI vooraf: groep 1 (28,5) en groep 2 (28.4). Het BMI achteraf: 23.5 resp. 25.5 voor groep 1 resp. Groep 2. De p-waarde is 0,15. Deze heeft geen statistische significantie, dit heeft alles te maken met het hele kleine onderzoek wat je gedaan hebt.
Dit maakt de interpretatie lastig. Je moet je altijd beducht zijn om goed op te letten wat er aan de hand is als je een p-waarde leest. Paradoxale resultaten zijn mogelijk:
Significant effect, maar niet klinisch relevant.
Klinisch relevant, maar niet significant.
Op het moment dat je van een associatiemaat het betrouwbaarheidsinterval uitrekent en dit deze omvat, dus de neutrale waarden behoren tot het betrouwbaarheidsinterval, dan ligt de p-waarde boven de 0,05. Andersom geldt dit ook: als het 95%BI de 1 niet bevat, dan is p < 0,05. Hetzelfde verhaal geldt voor mean difference en risk difference. Alleen is de waarde niet 1 maar 0 (wegens verschil), dus alleen als 95%BI de 0 niet bevat, is p>0,05. Dit betekent eigenlijk dat op het moment dat je de associatiematen uitrekent, dat er niet zoveel waarde zit in een p-waarde. Het geeft aan hoe krachtig de associatie is, hoe groot de omvang van het effect is en met het 95% BI zeg je ook nog iets over hoe nauwkeurig het is.
P-waarden en BI geven iets weer over de rol van toeval in een onderzoek en zeggen niks over alle problemen die je nog kan hebben met confounding en bias, etc. Dus ze geven geen informatie over validiteit van de studie.
Conclusie: nooit alleen naar p-waarden kijken, maar ook naar effect schattingen. Effect schattingen altijd presenteren met betrouwbaarheidsintervallen.
Oefening 1
Uit gegevens van het Transitie project in Nederland komt naar voren dat jaarlijks van de 1000 mannen er 19 een tonsilitis acuta krijgen, terwijl voor vrouwen dit 23 bedraagt.
Wat is het domein?
Nederlanders (mannen en vrouwen) in de huisartspraktijk.
Welke tijdsperiode betreft het?
Een jaar.
Welke frequentiemaat betreft het hier?
Incidentie: hier zijn echt nieuwe gevallen gepeild. Dit is een vorm van cumulatieve incidentie (wordt in percentage uitgedrukt).
Wat is de kans op tonsilitis acuta voor mannen per jaar gebaseerd op bovenstaande gegevens?
19/1000 = 1,9%.
Bij 3-10% van de kinderen in de algemene huisartspraktijk komt astma voor.
Wat is het domein?
Kinderen in de algemene huisartspraktijk.
Welke tijdsperiode betreft het?
één moment: cross-sectioneel. Er wordt geprobeerd in kaart te brengen hoe het op dat specifieke moment is in de huisartsenpraktijk.
Welke frequentiemaat betreft het hier?
Prevalentie. Dit wordt ook wel punt-prevalentie genoemd.
De kans op een mammacarcinoom gedurende het leven bedraagt 10%.
Wat is het domein?
Vrouwen.
Welke tijdsperiode betreft het?
Het leven.
Welke frequentiemaat betreft het hier?
Cumulatieve incidentie.
Bij 9% van mannen van 55-59 jaar is er sprake van wervelinzakkingen. Voor vrouwen bedraagt dit 10%.
Wat is de kans op aanwezigheid van wervelinzakking bij mannen in deze leeftijdsgroep?
9%.
Wat is het domein?
mannen en vrouwen tussen de 55-59 jaar.
Welke tijdsperiode betreft het?
Bepaald moment.
Welke frequentiemaat betreft het hier?
(punt) prevalentie.
In een interventieonderzoek naar het effect van hormoon suppletie na de overgang op het ontstaan van fracturen wordt een gunstig resultaat gevonden van toediening.
Wat is het domein?
Postmenopauzale vrouwen.
Welke tijdsperiode betreft het?
Follow-up duur van de studie.
Welke frequentiemaat betreft het hier?
Cumulatieve incidentie.
Oefening 2
Uit het ERGO onderzoek onder 55-jarige mannen en vrouwen is het verband onderzocht tussen roken en het optreden van hart- en vaatziekten. De 7685 personen zijn gescreend en vervolgens gedurende 5 jaar vervolgd. Hieronder zijn de gegevens in tabelvorm weergegeven. Bereken voor het verband tussen roken en het optreden van hart- en vaatziekten:
Wat is het domein?
Mannen en vrouwen van 55-jarige leeftijd.
Welke tijdsperiode betreft het hier?
5 jaar.
Welke frequentiemaat betreft het hier?
Incidentie (waarschijnlijk cumulatief).
Welke maten van verband kunnen we hier berekenen?
Relatief risico en odds ratio want je doet een cohort studie. Maar een OR is minder goed als de RR ook berekend kan worden. Ook risico-verschil kan worden uitgerekend.
Bereken deze associatiematen en leg in woorden uit wat ze betekenen.
RR = (41/(41+1695))/(107/(107+5842)) = 1,31.
OR = (41/107)/(1695/5842) = 1,32. Rokers hebben een 1,3 x zo grote kans op HVZ als niet-rokers.
Risicoverschil: (41/1736) – (107/5949) = 0,024 – 0,018 = 0,006. Rokers hebben een 5-jaars risico op HVZ dat 0,6% meer is dan dat van niet-rokers.
Rookt nu | HVZ-ziekte | Totaal | |
| Ja | Nee |
|
Ja | 41 | 1695 | 1736 |
Nee | 107 | 5842 | 5949 |
Totaal | 148 | 7537 | 7685 |
Oefening 3
Deze oefening is gebaseerd op het volgende onderzoek:
Van Duijn CM, Tanja TA, Haaxma R, Schulte W, Saan RJ, Lameris AJ, Antonides-Hendriks G, Hofman A. Head trama and the risk of Alzheimers’s disease. Am J Epidemiol. 1992;135:775-82.
Een studie naar hoofdtrauma als mogelijke oorzaak van de ziekte van Alzheimer liet de volgende resultaten zien. Van de 198 incidente cases met de ziekte van Alzheimer, hadden er 33 ernstig hoofdletsel in de anamnese. Van de 198 populatie-controles, die waren gematcht voor leeftijd en geslacht, hadden er 31 hoofdletsel in de anamnese.
Wat voor onderzoeksdesign is hier toegepast?
Patiënt-controle onderzoek: case-control studie.
Wat is de determinant?
Hoofdletsel.
Wat is het domein?
Bevolking, immers de uitkomst van het onderzoek geldt voor dit domein in de toekomst.
Wat is de uitkomst?
De ziekte van Alzheimer.
Welke associatiemaat kun je hier berekenen?
Alleen de odds-ratio want je hebt te maken met patiënt-controle onderzoek.
Bereken deze.
(33/165)/(31/167) = 0,2/0,18562874 = 1,11.
| Alzheimer+ | Alzheimer- |
Hoofdletsel + | 33 | 31 |
Hoofdletsel - | 165 | 167 |
Interventieonderzoek is een kwantitatieve meting van effecten van therapie of preventieve maatregelen. Het is experimenteel: de onderzoeker bepaalt wie de therapie krijgt, niet de behandelaar. Het woord interventie is heel breed, zelfs de organisatie van de gezondheidszorg is een voorbeeld van interventie. Men is zo actief bezig dat het in de richting gaat van een oorzakelijk onderzoek. Men wil weten dat het echt de interventie is waardoor patiënten beter worden. Het is geen descriptief onderzoek, maar hier willen we heel nadrukkelijk de samenhang bekijken maar met een oorzakelijke bril. Een voorbeeld: Lotens, een nieuwe bloeddruk verlager. In het eerste experiment met de bloeddruk heeft mevrouw Jansen een hoge bloeddruk, dan wordt 6 weken Lotens voorgeschreven. De uitkomst is de bloeddruk. We gebruiken dit als uitkomst, maar het is een soort intermediaire uitkomst. We gebruiken dan dus iets wat sneller waargenomen kan worden in zo’n onderzoek als maat voor HVZ. Het is dus een indirecte uitkomst. In iedere week van behandeling komt mevr. Jansen terug. Wanneer men waarnemingen doet, kan nooit zonder meer worden gezegd dat iets werkt of niet. Dit is een te eenvoudige voorstelling van zaken. Verklaringen gevonden effect:
Regressie naar het gemiddelde. Bloeddruk heeft een natuurlijke variatie binnen een persoon, er zijn allerlei redenen waarom het wat fluctueert. Op het moment dat je patiënten gaat insluiten in je onderzoek wanneer ze boven een bepaalde waarde uitkomen (bv. > 160 mmHg systolisch), kan je mensen meenemen die toevallig net een wat hogere waarde hebben. De kans is dan heel erg groot dat wanneer je hem de volgende keer meet, dat hij dan een lagere waarde heeft. Zodra er dan een tweede meting gedaan wordt, zal regressie naar het gemiddelde gezien worden. Dit gebeurd elke keer als mensen worden ingesloten op basis van criteria die fluctueren. Er is een centripetale beweging van gegevens in het vervolg van metingen. Het is een gevolg van variabiliteit, ‘the doctor’s friend’. De oplossing is: meer metingen of een controle groep.
Natuurlijk beloop/prognose van ziekte. Onafhankelijk van behandeling kan de bloeddruk veranderen over de tijd en deze verandering kan verschillen tussen mensen.
Externe effecten. Deze effecten komen erbij naast het effect waar men specifiek geïnteresseerd in is. Dit wordt ook wel placebo effect genoemd, of geïnduceerde effecten.
Geïnduceerde effecten: gedragsveranderingen als gevolg van behandeling van hoge bloeddruk met Lotens, bijvoorbeeld eet- en drinkpatroon, lichamelijke activiteit, etc.
Vertekende waarneming. Op het moment dat je als arts heel erg gelooft in de werking van het geneesmiddel, kan dit misschien de waarneming wat vertroebelen. Dit wordt ook wel ‘informatie bias’ genoemd. Dit kan optreden bij patiënten, behandelaars en fabrikanten. Deze kunnen verwachtingen hebben van het effect van Lotens. Deze verwachtingen kunnen invloed hebben op bv. Rapportage van patiënten of metingen door behandelaars. Resultaat is vertekende waarneming.
Werkelijk effect geneesmiddel.
Er lopen een aantal dingen door het onderzoek wat ons parten kan spelen: natuurlijk beloop/regressie naar het gemiddelde (NB), externe effecten (EE) en waarneemfouten (WF). Op het moment dat je dit systematisch gaat bekijken, kun je dus proberen na te gaan welke maatregelen mogelijk zijn. Allereerst: een controlegroep die het geneesmiddel niet krijgt, dan krijg je al een betere benadering van wat die echte therapie is. Op het moment dat er een controlegroep gemaakt wordt, ontstaat er een andere vergelijking. Pas als we gelijkheid kunnen krijgen tussen NB bij cases en controles, EE bij cases en controles en WF bij cases en controles, kunnen we iets zeggen over de werkelijke werking. Als we vergelijkbaarheid willen over het natuurlijk beloop, dan moeten de groepen hetzelfde zijn qua prognose. Als we het hebben over externe effecten moet daarvoor ook weer gekeken worden wat voor factor dat gelijk kan krijgen in beide groepen. Ook voor waarneemfouten geldt dit weer. Als je dit zoveel mogelijk gelijk kan trekken kan je iets zeggen over het therapie-effect.
We willen dat het natuurlijk beloop gelijk is. Dus zonder behandeling zouden we dezelfde uitkomst moeten zien in de beide groepen. Vergelijkbaarheid van populaties is hetzelfde als vergelijkbaarheid van de prognose. De voorkeur van patiënt of arts moeten worden uitgeschakeld. Opties:
Selectie of matching.
Meten en in analyse controleren voor prognostische indicatoren.
Randomisatie – paradigma van vergelijkend onderzoek vanaf 1948.
In een trial is de determinant een medicijn en de uitkomst is bijvoorbeeld de bloeddruk. Wat je wil voorkomen is dat er ergens confounding optreedt. Op het moment dat er ergens een confounder zit met een positieve of negatieve relatie tot de uitkomst, kan alles verstoord worden. Ook in een trial zijn er potentiele confounders, maar door de randomisatie hoop je dat al die confounders min of meer gelijk verdeeld zitten. Dat is het voordeel van de RCT, op die manier wordt geprobeerd confounding buiten de deur te houden. In het observationeel onderzoek kan dit wel, dat er confounders een rol een spelen. Het doel van randomisatie is dat het ervoor moet zorgen dat de te vergelijken groepen gemiddeld dezelfde baseline kans op verandering in de bloeddruk hebben (prognose, natuurlijk beloop). Vergelijkbaar maken van index en referentiegroepen t.a.v. alle bekende en onbekende factoren die de bloeddruk kunnen beïnvloeden. Je hebt wel voldoende groepsgrootte nodig om randomisatie zijn werk te kunnen laten doen. Anders speelt de rol van toeval nog een te grote rol, deze rol wordt kleiner bij een grote groep. Er zitten ook nadelen aan dit soort onderzoek (cross-over design):
Je krijgt allerlei tijdseffecten, patiënten keren vaak na behandeling niet terug naar de oorspronkelijke situatie.
Na het randomiseren is het nog steeds geen goede afspiegeling. Externe effecten kunnen ook nog misgaan. Maatregelen om te voorkomen dat de externe effecten in ieder geval niet verschillend zullen zijn:
Randomiseren. Proberende gedurende het onderzoek te verschillen te beperken door de patiënt en arts niet in te lichten over de aard van de behandeling. Dit is niet altijd mogelijk, soms kan een interventie zodanig anders worden dat het moeilijk is.
Placebo of gesimuleerde behandeling in de referentiegroep.
Blinderen (zowel patiënt als arts).
Verder moeten de waarneemfouten niet systematisch van elkaar komen te verschillen. Wat we hiervoor kunnen bedenken, is:
Protocolleren, systematiseren. Hoe meer je kan protocolleren, hoe minder snel er subjectieve verschillen ontstaan.
Placebo.
Blinderen (single, double, triple). Dit in de zin dat je de waarnemer blindeert. Dit is makkelijker wanneer er al een echt geblindeerd onderzoek is. Dan kan het namelijk door dezelfde arts gedaan worden, anders niet. Hier wordt dus alleen de uitkomst geblindeerd. Dit lukt soms ook in observationeel onderzoek. Single: alleen patiënt, double: ook arts, triple: degene die analyse doet of nog iemand anders ook geblindeerd.
Maatregelen verhogen vergelijkbaarheid:
Natuurlijk beloop: randomisatie.
Externe factoren: maskeren behandeling (placebo).
Meetfouten: blinderen uitkomstmeting.
Belangrijkste dingen:
Verschillende doelen: verklaren vs. Pragmatisme.
Verklarend. Belang in een enkel aspect van hoge bloeddruk behandeling, bv. Lotens.
Pragmatisch. Belang in strategie (procedure met alles wat erbij hoort) voor hoge bloeddruk behandeling, bv. Combinatie van medicijnen met leefregels en afvallen, inclusief geïnduceerde effecten. Blindering is hier veel moeilijker, en misschien ook wel veel minder van belang. Er gebeuren zoveel verschillende dingen dat maskeren van de behandeling moeilijk is, en misschien ook wel veel minder belangrijk. Het is wel moeilijker te achterhalen welk deel nou precies verantwoordelijk is voor het resultaat.
Analyse gerandomiseerd onderzoek. Randomisatie is een krachtige manier om het probleem van verschillen in natuurlijk beloop op te lossen. Dit principe moet niet teniet gedaan worden in de analyse! Je wil patiënten in vergelijkbare groepen zoveel mogelijk in stand houden. Dit is het ‘intention to treat’: eens lid van een cohort, altijd lid van dat cohort. Dit is in tegenstelling tot analyse van alleen die patiënten die daadwerkelijk de behandeling kregen (per treatment of on protocol analyse). Probleem: loss to follow up.
Loss-to-follow-up. Het probleem is dat mensen de behandeling stoppen vanwege een reden. De behandeling werkt wel of juist niet, mensen kunnen ziek zijn of juist niet. Redenen kunnen verband houden met de occurence relatie: geneesmiddel en uitkomst. Probleem: we weten niet waarom men stopt. Resultaat: mogelijk vertekenend, gebiasd.
Keuze studie eindpunten. Men heeft een intuitieve voorkeur voor ‘harde’ klinische maten, maar er is een groeiende onderkenning van het belang van de patiënt voorkeur in het beoordelen van keuzen. Vaak zijn er onduidelijke keuzen van eindpunten en onduidelijke validiteit van gekozen eindpunten.
Nadelen.
Er zitten grenzen aan gegeneraliseerbaarheid (selectie van studiepopulatie).
Budget (RCT is duur).
Duurt lang (RCT is prospectief).
Aantal patiënten.
Ethische dilemma’s (o.a. equipoise).
Alternatieven voor experimenteel onderzoek.
Cohort studies/case control studies.
Niet inherent minder valide, maar veel moeilijker te ontwerpen en uit te voeren en daarom veel gevoeliger voor bias.
In vergelijkend niet-experimenteel onderzoek bestaat een grote kans op onvergelijkbaarheid van juist die drie componenten die in een RCT zo goed worden opgelost.
Grootte van trials.
Rapportage.
Deel 1 laat de groepen zien, met name de prognostische factoren in index en referentie groep. Laat zien of randomisatie gelukt is.
Deel 2 laat interventie effecten zien. Verschil in groepsgemiddelen, verschil in groepsproporties. Ook relatieve risico’s (reductie), risico verschil en NNT.
De prognose beïnvloedt de kans om aan een bepaalde interventie toegewezen te worden. Bijvoorbeeld:
Observationele studie naar effectiviteit van vaccinaties.
Observationele studie naar effect van antihypertensiva.
Confounding by indication: onderzoek naar het effect van anti-hypertensiva onder 793 Nederlandse hypertensieve vrouwen, die meer dan 10 jaar werden gevolgd. Ruwe en geadjusteerde rate ratios voor fatale cardiovasculaire ziekten werden in behandelde vrouwen vergeleken met onbehandelde vrouwen. Bij observationeel onderzoek zit altijd confounding op indicatie, artsen geven patiënten wel of niet het middel.
Het benodigde aantal patiënten is altijd iets waar je iets over probeert te zeggen.
Sample size berekening:
Alchemie van de statistiek.
Echter: voorafschatting informatiegehalte (precisie) van een onderzoek op basis van omvang is belangrijk.
Sample size berekening geeft een globale indruk.
Als de studie kwaliteit onvoldoende is: optimale omvang 0.
Meer patiënten geven niet noodzakelijkerwijs meer informatie.
Conslusies:
Voor evaluatie van effecten van therapie is vergelijking noodzakelijk.
In trials zijn zeer effectieve methoden ontwikkeld om vergelijkbaarheid van natuurlijk beloop, externe effecten en informatie te verhogen randomiseren, blinderen en placebo.
De concepten en principes van een trial staan model voor niet-experimenteel onderzoek.
Oefening
Deze oefening is gebaseerd op het volgende onderzoek: Kalliomäki M, Saliminen S, Arvilommi H, Kero P, Koskinen P, Isolauri E. Probiotics in primary prevetion of atopic disease: a randomised placebo-controlled trial. Lancet 2001;357:1076-79.
Het is een goed voorbeeld van een primaire preventie trial waarbij men met een specifieke interventie probeert het risico op ontstaan van ziekte te verminderen. Het onderzoek is gebaseerd op eerdere waarnemingen passend bij de zogenaamde hygiëne hypothese. Kinderen die op heel jonge leeftijd veel infecties doormaakten hadden een kleinere kans op het ontwikkelen van atopische ziekten (atopisch eczeem, allergische rhinitis, astma) dan kinderen die minder infecties doormaakten.
Formuleer de vraagstelling (domein, determinant, uitkomst).
Hebben kinderen van moeders uit hoog risico-families (domein) een lager 2-jaars risico op atopische ziekten (uitkomst) als zij voor en na de zwangerschap worden blootgesteld aan een probioticum dan aan placebo (determinant)?
Domein: zwangere vrouwen met een eerstegraads familielid lijdend aan atopische ziekte.
Determinant: toediening van lactobacillus rhamnosus.
Uitkomst: Atopische ziekte bij kinderen van moeders uit hoog-risico families.
Zie tabel: beargumenteer of het doel van de randomisatie is bereikt?
Iets vaker atopie en roken in placebo gezinnen, iets vaker huisdieren en detecteerbaar IgE in Lactobacillus, maar oer het geheel redelijk vergelijkbaar.
Verdeling van familiegeschiedenis en geboortekarakteristieken na randomisatie zijn te zien in de tabel in het blokboek op blz. 59.
Op blz. 60 in het blokboek staat het ‘trial profiel’ met aantal gerandomiseerde moeders, aantallen die uitvielen (lost to follow-up) en aantallen die analyseerbaar waren (complete follow-up). 5 van de 14 uitvallers in de placebogroep vielen uit na 6 maanden follow-up en in de Lactobacillus groep waren dat er 4 van de 13. Geen van de uitvallers had een atopie diagnose voor uitval.
Wat was de kans van een pasgeborene uit een hoog-risico familie om in de eerste 2 levensjaren een atopische ziekte te krijgen onder Lactobacillus behandeling?
15/64 =23%. De afvallers trek je ervan af.
Wat was de kans van een pasgeborene uit een hoog-risico familie om in de eerste 2 levensjaren een atopische ziekte te krijgen onder placebo behandeling?
31/68 = 46%. De afvallers trek je ervan af.
Wat is het relatieve risico?
| Atopie+ | Atopie- |
Lactobacillus+ | 15 | 49 |
Lactobacillus- | 31 | 68 |
Relatieve risico: (a/(a+b))/(c/(c+d)) = (15/64)/(31/68)= 0,51.
Wat is het 95% betrouwbaarheidsinterval behorend bij dit relatieve risico?
95% BI = 0.31 tot 0.85.
E ln0.51+/-1.96V[49/15x64+37/31x68)
| Ziekte | |||
Determinant |
| Ja | Nee | Totaal |
Ja | A1 | B1 | N1 | |
Nee | A0 | B0 | N0 |
Het 95% betrouwbaarheidsinterval van het relatieve risico is bij benadering:
Waarom berekent men dit interval?
Vanwege nauwkeurigheid. Het betrouwbaarheidsinterval (bhi) zegt iets over de precisie van de effectschatting. Een 95% bhi heeft een 95% kans om de werkelijke, onbekende populatie parameter te bevatten (RR, OR, gemiddelde, …).
Kan dit resultaat (deels) verklaard worden door verschillen tussen de groepen na randomisatie? Of door de loss to follow-up? Beargumenteer.
Nee.
Welke conclusie kan op basis van deze resultaten worden getrokken?
Pre- en postnataal gebruik van Lactobacillus bij hoog risico kinderen lijkt het ontstaan van vroege atopie te voorkomen.
De statistiek houdt zich onder andere bezig met de methodologie: hoe wordt een studie opgezet? Voor een groot deel kan de statistiek worden opgesplitst in beschrijvende statistiek en toetsende statistiek. Het toetsende deel van de statistiek beschrijft wat een steekproef zegt over de gehele populatie. Hier horen betrouwbaarheidsintervallen bij, maar ook statistische proeven. Immers, de data van een steekproef moeten een weerspiegeling zijn van een hele populatie. Men wilt onderzoeken in hoeverre dit zo is en of het dus generaliseerbaar is.
Een parameter in een steekproef hoort bij een gemiddelde (parameter) in de populatie. Meestal is deze waarde onbekend en wilt men deze schatten m.b.v. de gemiddelde waarde in een steekproef. Griekse letters worden gebruikt als gemiddelde waarde van een populatie en latijnse letters voor gemiddelde waarden in de steekproef. Het is het beste als de letters gelijk zijn aan elkaar.
Een steekproef wordt beschreven met getallen, dit zijn locatiematen:
Het rekenkundig gemiddelde: alle waarden bij elkaar opgeteld en gedeeld door het totaal aantal waarden.
Bij symmetrische verdelingen heeft dit gemidelde de voorkeur.
De mediaan: de middelste waarneming na een rangschikking. Bij een even aantal is er geen middelste waarde, dan wordt vaak het gemiddelde genomen van de twee middelste waardes.
Bij uitschieters heeft de mediaan de voorkeur; bijvoorbeeld bij een rechts-scheefverdeling of een links-scheefverdeling. Dan ligt de mediaan in het midden van de data, maar de gemiddelde waarde wordt omhoog resp. Omlaag getrokken. Dan is de mediaan een betere locatiemaat om te bepalen waar het middelpunt van de data ligt.
Modus: de waarneming met de hoogste frequentie. Het rekenkundig gemiddelde en de mediaan zijn lokatiematen die het meest gebruikt worden. De modus is heel belangrijk bij de verkiezingen, de partij met de modus mag de premier leveren. Bij categoriale waarden is een modus vaak handig.
Het middelpunt van de data hebben is handig, maar wat ook handig is, is een spreidingsmaat. Een gemiddelde waarde met weinig spreiding is immers anders dan een gemiddelde waarde uit data met veel spreiding. Spreidingsmaten geven aan hoe dicht de waarnemingen bij elkaar liggen. Voorbeelden zijn:
De standaarddeviatie. De standaarddeviatie is een maat van spreiding op dezelfde schaal als de oorspronkelijke meting. We gebruiken deze als we de gemiddelde waarde gebruiken als locatiemaat. Bij een slechte verdeling waarbij een mediaan gebruikt wordt, gaat men ook sneller voor een interkwartielafstand.
De interkwartielafstand. De kwartiele splitsen data in 4 gelijke stukken. We kappen bij de mediaan, en daarna weer tussen de laagste waarde en de mediaan (Q1) en tussen de hoogste waarde en de mediaan (Q3), deze worden van elkaar afgetrokken waardoor gezien kan worden welke waarden zich in 50% van de data bevinden.
Het is niet mogelijk voor elke variabele een gemiddelde te berekenen. De gemiddelde bloeddruk kan bijvoorbeeld wel berekend worden, maar de gemiddelde bloedgroep niet. Het meetniveau is heel belangrijk. Er zijn verschillende meetniveaus:
Nominaal (voorbeeld: geslacht, etniciteit, bloedgroep). Hier is geen gemiddelde van te nemen.
Ordinaal (voorbeeld: opleidingsniveau, beoordeling). Hier zit een ordening in, maar de afstand tussen de categorieën hoeft niet perse gelijk te zijn.
Interval (voorbeeld: aantallen, temperatuur Co).
Ratio (voorbeeld: aantallen, lengte, gewicht, temperatuur K).
Het liefst neemt men interval en ratio samen: numeriek. Dit houdt in dat het interval tussen de categorieën gelijk is. Er kunnen verhoudingen gemaakt worden, dit zijn numerieke variabelen.
Waarden kunnen continu of discreet zijn:
Ordinaal, interval en ratio kunnen continu of discreet zijn. Bloeddruk is eigenlijk een continue variabele, maar we meten het vaak discreet (op de 1 mmHg). We kunnen nooit iets precies continu meten, maar in principe is de bloeddruk continu. Leeftijd is ook een continue variabele, we ronden het eigenlijk altijd af op hele getallen, maar eigenlijk kan het veel preciezer worden aangegeven.
Nominale variabelen zijn altijd discreet.
Lengte is continu en numeriek. Hierbij kan dan een gemiddelde waarden worden berekend met een standaarddeviatie. Een boxspot geeft een streepje in het midden bij de mediaan, onderaan Q1 en bovenaan Q3 (alles daartussen betreft 50% van de waarden) en dan zijn er nog streepjes omhoog en omlaag. De boxspot veranderd nooit van vorm. Hij geeft al aardig de vorm van de verdeling aan. Als de afstanden ongeveer gelijk zijn en de staarten even lang, is er sprake van een symmetrische verdeling.
Gewicht is ook continu en numeriek. De gemiddelde waarde en de mediaan verschillen: de gemiddelde waarde is lager.
Geslacht en bloedgroep zijn nominale variabelen, hier kan niet zoveel mee gedaan worden. Vaak wordt een tabel gemaakt met aantal en percentage.
Er kunnen natuurlijk ook meerdere variabelen tegelijk worden beoordeeld. In dit college wordt de relatie tussen twee dichotome variabelen besproken. Dichotoom houdt wel/niet in. Bijvoorbeeld de relatie tussen leeftijd en hypertensie. De waarden moeten dan dichotoom worden gemaakt: leeftijd wordt geclassificeerd als oud wanneer boven de 50, en jong wanneer onder de 50, hypertensie wanneer bloeddruk groter of gelijk aan 140 en geen hypertensie wanneer bloeddruk lager dan 140. Er is heel veel verschil tussen een 49-jarige en een 50-jarige. Hiermee kan veel nauwkeurigheid en informatie verloren gaan, dit wordt in de praktijk toch gedaan. Met deze twee dichotome variabelen kan een 2 bij 2 tabel worden gemaakt. Een relatief risico is een verhouding van kansen: de kans dat men hypertensie heeft gegeven dat men oud is, gedeeld door de kans dat men hypertensie heeft gegeven dat men jong is. Ook kan er een odds ratio (OR) worden uitgerekend op basis van de 2 bij 2 tabel. Dit is ook een verhouding, maar dan op basis van odds. Dus de odds dat men hypertensie heeft gegeven dat men oud is, gedeeld door de odds op hypertensie gegeven dat men jong is. De odds is de kans op hypertensie gegeven dat men oud is gedeeld door de odds op geen hypertensie gegeven dat men jong is. De OR kan erg afwijken van het relatief risico. Bij een kleinere prevalentie benaderd de OR het RR, bij een hogere prevalentie valt de OR eigenlijk altijd hoger uit. Een OR moet gebruikt worden bij analyse manieren, daar komen soms alleen ORs uit.
Kansvariabelen
Een kansvariabele X is een grootheid waarvan de uitkomst van het toeval afhankelijk is. Een voorbeeld: we zijn geïnteresseerd in de lengte van personen. We weten niet (althans voordat de steekproef getrokken is) welke uitkomsten we krijgen; de uitkomsten hangen af van het toeval. Wel kunnen we ons het volgende afvragen:
Hoe ziet de verdeling van X eruit? Symmetrisch of scheef?
Wat mag ik, gemiddeld genomen, verwachten?
Hoe zit het met de spreiding?
Kansvariabelen kunnen allerlei verschillende vormen aannemen. De normale verdeling is afhankelijk van de gemiddelde waarde en een standaarddeviatie. Er zijn vele mogelijkheden aan normale verdelingen:
Normale verdeling: symmetrisch.
Gamma verdeling: rechts-scheve verdeling. Veel labwaardes zijn begrenst aan de onderkant (0) maar er zijn wel hogere uitschieters.
Binomiale verdeling. Stel dat er een steekproef wordt genomen met 10 mensen en de kans op ziekte is 30%. Dan beschrijft het de kans hoeveel van die zieke mensen in de steekproef terecht komen. Af en toe kan het voorkomen dat het helemaal 0 is of alle 10, maar dit zou niet zo vaak voorkomen want het is niet zo waarschijnlijk.
Het steekproefgemiddelde is een kansvariabele die van het toeval afhangt. Stel dat er 100 mensen deelnemen aan een steekproef en we meten de systolische bloeddruk. Het steekproefgemiddelde zegt ons niet alleen iets over deze 100 mensen, maar ook iets over de populatie waaruit de steekproef getrokken is. Nemen we, zeg, 25 maal een steekproef van 100 mensen uit deze populatie, dan krijgen we niet 25 keer hetzelfde steekproefgemiddelde. Wel krijgen we telkens waarden die rond dezelfde waarde schommelen. Die schommeling kan beschreven worden met een maat van precisie: de standaardfout. Dit is een getal wat uitdrukt hoe precies er gemeten is, hoeveel variatie er is tussen de steekproefgemiddelden. De standaardfout is simpelweg de standaarddeviatie gedeeld door de wortel uit de steekproefgrootte. Dit geeft informatie over de nauwkeurigheid van het gemiddelde t.o.v. het populatiegemiddelde. Het steekproefgemiddelde kan gebruikt worden om betrouwbaarheidsintervallen voor het populatiegemiddelde te construeren. Vroeger werden heel veel medische studies gedaan onder bijvoorbeeld gezonde mannen tussen de 40 en de 49 jaar. Op die manier ontstaat er een wat homogenere populatie en dus minder spreiding tussen de mensen in de populatie. Dit betekent echter wel dat de conclusies alleen gelden voor een selecte groep mensen. De standaardfout kan ons helpen een betrouwbaarheidsinterval uit te rekenen. Ook kan het ons helpen bij toetsen. Voor een toevalsvariabele X geldt:
Als X een normale verdeling volgt met bekende standaardafwijking, dan wordt het 95%-betrouwbaarheidsinterval voor gegeven door een formule:
Stel: we vonden in onze steekproef van 100 mensen een gemiddelde van 141.2 en we weten dat de standaarddeviatie 10 is. Het betrouwbaarheidsinterval houdt in dat er 95% kans is dat het interval: bevat (dus het ware populatie gemiddelde). Er zijn ook betrouwbaarheidsintervallen voor:
uit een normale verdeling met onbekende variantie.
Variantie.
Mediaan.
OR, RR, etc.
De formules kunnen dus anders zijn maar de interpretatie blijft gelijk. Stel dat we een schatting voor een OR hebben van 4,39. Het 95% bhi was dan 1.8885 ≤ OR ≥ 10.233. De OR ligt dus sowieso boven de 1; het kan dus niet door het toeval komen dat hypertensie meer bij ouderen voorkomt. Toch is dit bhi vrij breed. Dit komt doordat er maar weinig mensen zijn meegenomen in de studie en ook doordat er gedichotomiseerd is. Hierdoor kunnen data verloren gaan en is de meting minder nauwkeurig. Maar op basis van het bhi kunnen we al de conclusie trekken dat er verschillen zijn.
Bij statistische toetsen wordt er gekeken naar de steekproef en wordt de theorie gebruikt om iets te zeggen over de populatie. Bij een 2 bij 2 tabel gebruiken we de Chi-kwadraat toets om tot een conclusie te komen. In ons voorbeeld geldt OR=4,39. Als er geen relatie zou zijn, dan zou moeten gelden OR=1. Waarschijnlijk zal nooit OR=1 gevonden worden, ook al is er geen relatie. Dit omdat de populatie onderling verschilt. De vraag is nu of de gevonden statting sterk afwijkt van a en of dit een toevallige bevinding is.
Bij een statistische toets gaan we bepaalde stappen volgen. We gaan een beslissing maken op basis van wat we zien in onze steekproef en de nulhypothese. Deze wordt eigenlijk opgesteld om hem hopelijk te verwerpen: ‘er is geen relatie, er is niks aan de hand’. De alternatieve hypothese is dus de rest. Dit doen we omdat OR=1 is een heel specifiek geval is die gebruikt kan worden om een toetsing uit te rekenen. Er zijn vele alternatieve hypotheses die we niet allemaal kunnen uitrekenen. Daarom wordt er een nulhypothese opgesteld waarbij ervan uit wordt gegaan dat deze klopt, hieraan kan dan gerekend worden. Stappen in het toetsen zijn:
De nulhypothese, alternatieve hypothese en type I fout worden vastgesteld.
Voorbeeld:
Nulhypothese: er is geen relatie, geen afhankelijkheid. Hypertensie is onafhankelijk van de leeftijd, OR=1.
Alternatieve hypothese: er is wel een afhankelijkheid (leeftijd hoger dan 50 jaar).
De toetsingsgrootheid (T) wordt berekend.
Voorbeeld:
Dit wordt gedaan uitgaande van de bewering dat de nulhypothese waar is. Dan zou verwacht worden dat 55% geen hypertensie heeft (zowel jonge als oude mensen) en dat 45% hypertensie heeft (zowel jonge als oude mensen). Dan zou verwacht worden dat 31 mensen geen hypertensie zouden hebben en 25 wel hypertensie. Deze verwachtte aantallen worden tussen haakjes in de tabel gezet. Om dit pleit te beslechten berekenen we de volgende toetsingsgrootheid: 12.33. Als een nulhypothese helemaal waar is en de steekproef een perfecte weergave van de populatie is, moet de toetsingsgrootheid 0 zijn. Echter, niet elke steekproef is perfect, dus meestal komt er een waarde rond de 1 uit. Om de nulhypothese als waar aan te nemen wil men dus een lagere toetsingsgrootheid.
Formule:
Op basis van de verdeling wordt T vastgesteld en wordt er een overschrijdingskans berekend.
Als de nulhypothese waar is, volgt de toetsingsgrootheid T een x2 verdeling; deze verdeling wordt vastgelegd door het aantal vrijheidsgraden:
Als in een tabel de randtotalen gegeven zijn, dan kun je niet zomaar getallen in de cellen zetten. Je vrijheid wordt in een zekere zin beperkt.
In een 2x2 tabel met gegeven randtotalen kun je nog één getal vrij kiezen (mits kleiner dan kolom- en rijtotaal uiteraard). De rest loopt dan vast en kun je niet meer kiezen, dus het aantal vrijheidsgraden voor de 2x2 tabel is 1.
Hoe groter de tabel, hoe meer afwijkingen bij elkaar opgeteld worden en hoe minder vreemd het is dat er een grote waarde uitkomt. Bij 1 vrijheidsgraad is de kans dat de toetsingsgrootte >4 is heel onwaarschijnlijk. Als de H0 klopt dan volgt de toetsingsgrootheid de chi-tabel met de bijbehorende vrijheidsgraad. Meestal liggen ze tussen 0 en 2.
De overschrijdingskans kan ons vertellen wat de kans is dat de toetsingsgrootheid een bepaalde waarde heeft als de nulhypothese waar is. Dit wordt ook wel de p-waarde genoemd. Deze is heel erg klein. Dit wil zeggen dat de kans dat we een waarde hebben van 12,33 wanneer H0 echt waar is bijvoorbeeld 0,0004 is. Als de nulhypothese waar is, dan is de kans dat we zo’n extreem resultaat zouden krijgen heel erg klein.
Er wordt een conclusie getrokken.
Bij een betrouwbaarheidsdrempel van 5% verwerpen we de nulhypothese. Trek deze conclusie in normaal Nederlands: we vinden wel/geen bewijs voor een relatie tussen leeftijd en bloeddruk. De kans dat we een extreme waarde vinden bij kloppen van de nulhypothese is heel erg klein, en kleiner dan van tevoren opgesteld. Dus de nulhypothese wordt hier verworpen. Hij is niet per definitie onwaar, het kan immers ook door toeval komen. Het kan zijn dat we aselect een rare steekproef hebben getrokken, alleen die kans is heel erg klein. Er is in dit geval bewijs gevonden voor een relatie tussen leeftijd en bloeddruk (nulhypothese is immers verworpen).
Er kunnen twee soorten fouten gemaakt worden bij een statistische toets:
Type 1: ten onrechte verwerping van de nulhypothese. Deze wil je van tevoren vaststellen: meestal =0,005.
Type 2: ten onrechte handhaving van de nulhypothese. Dit hangt (deels) van de steekproefgrootte af.
Toetsen:
Ander soort data andere toets.
Continue uitkomst:
Verschil in gemiddelden: t-toets, ANOVA.
Mate van relatie: toets op correlatie, regressie.
Tellingen (aantal keer naar EHBO): poisson.
Tijd tot overlijden (of een ander ‘event’): survival.
Procedure blijft het hetzelfde;
H0, H1 en a vaststellen.
Toetsingsgrootheid (T) berekenen.
Verdeling van T vastleggen, overschrijdingskans berekenen.
Conclusie trekken.
Er zijn verschillende meetniveaus van variabelen:
Nominale variabelen.
Ordinale variabelen.
Intervallen.
Ratio.
Er zijn continue en discrete variabelen. Er wordt gekeken naar de relatie tussen leeftijd en hypertensie, maar hiervoor wordt de relatie tussen de leeftijd en de bloeddruk bestudeerd. De vraag is naar wat voor relatie er wordt gezocht, lineair, kwadratisch, etc.? Bij het zoeken naar een relatie tussen twee continue variabelen is het handig om een spreidingsdiagram te maken. Bij de relatie tussen leeftijd en bloeddruk lijkt het om een lineair verband te gaan. Bij een lineaire lijn zijn er een aantal mogelijkheden:
Lineaire regressie. Dit wordt gedaan wanneer men een lineair verband vermoedt om de relatie tussen X en Y te schatten d.m.v. een lijn door de puntenwolk. Er geldt: y=+x. De ‘beste’ lijn noemt men de regressielijn. In dit voorbeeld geldt: y=103,65 + 0,49x. 0,49 is de richtingscoëfficiënt. Deze houdt hier in hoeveel de bloeddruk per jaar omhoog gaat. De 103,65 geeft een startpunt aan (de bloeddruk bij een leeftijd van 0). Dit getal stelt onze lijn vast in de ruimte en past bij de gegevens. Dit heeft in principe geen interpretatie maar maakt het wel mogelijk voorspellingen te maken. We hebben gegevens tussen de leeftijden van 20 en 80. Daarbuiten kan niks gezegd worden over de relatie tussen leeftijd en bloeddruk. Dus buiten de range van de gegevens mogen eigenlijk geen voorspellingen worden gedaan.
Lineaire regressie wordt vaak gebruikt bij afhankelijkheid: de x- en y-variabele kunnen niet met elkaar gewisseld worden. In dit voorbeeld gaat dit eigenlijk niet op.
Correlatie. Er kan een situatie zijn waar twee variabelen duidelijk samenhangen, maar het maakt eigenlijk niet uit welke de x is en welke de y is. Dan wordt sneller correlatie gebruikt, dit is een maat van samenhang tussen twee continue variabelen. De correlatiecoëfficiënt is een maat voor lineaire samenhang tussen x en y. Er geldt:
r is dimensieloos en r2 is een maat voor de hoeveelheid variantie verklaard door de regressielijn.
De noemer schaalt terug naar de spreiding in zowel de x- als de y-richting. Daardoor krijgen we iets wat tussen de -1 en de +1 valt. -1 is perfecte correlatie negatief en +1 is perfecte correlatie positief. Hoe dichter de waarde van r bij -1 of 1 ligt, hoe sterker het verband is. De correlatie is een maat voor hoe dicht de punten tot de lijn komen: hoeveel spreiding er rondom de lijn is. Hoe meer spreiding rondom de lijn, hoe zwakker de correlatie. Een correlatie is geen helling en de helling is geen correlatie. Ze hangen wel met elkaar samen, maar het is niet hetzelfde. Helling heeft namelijk een dimensie, een correlatie zegt iets over hoe sterk het verband is. Een nadeel van correlatie is dat het alleen lineaire verbanden ziet. Dat is de reden dat er altijd eerst naar een plaatje gekeken moet worden. Soms is er geen verband tussen x en y, maar op het moment dat er rekening wordt gehouden met een derde variabele (z) dan kan er wel een verband worden gezien tussen x en y. Dit principe wordt ook wel confounding genoemd.
Correlatie en regressie gelden in principe alleen voor de lineaire verbanden en in een ander verband kunnen ze niet meteen worden toegepast.
De T-toets
Dit is een continue (ratio/interval) uitkomstmaat (bv.: bloeddruk, gewicht, BMI). De uitkomst is (ongeveer) normaal verdeeld. Er zijn twee t-toetsen: voor 1 of 2 groepen of populaties. In de praktijk wordt dit niet veel gebruikt, maar het geeft een mooi opstapje voor een t-toets voor twee groepen.
Stel dat men wilt weten of Nederlanders te zwaar zijn. Er wordt dan gekeken of de BMI in de populatie gemiddeld hoger is dan 25. Daarboven is immers sprake van overgewicht. Er wordt een steekproef genomen uit de Nederlandse populatie van 30 mensen en van iedere persoon wordt het BMI bepaald. Er wordt verondersteld dat het BMI redelijk wordt beschreven door een normale verdeling. De resultaten van de steekproef geven aan dat het gemiddelde op 25,8 ligt en dat de standaardafwijking 3.1 betreft. De vraag is of het steekproefgemiddelde te sterk afwijkt van 25. Deze vraag kan worden beantwoord met een statistische toets:
Stap 1: hypotheses en type I fout vaststellen.
De hypotheses zijn:
H0= ≤ 25.
H1= > 25.
= 0,05.
Let op: het is een eenzijdige toets.
Stap 2: de toetsingsgrootheid berekenen. Om deze vraag te beantwoorden kunnen we onze steekproefresultaten in de volgende toetsingsgrootheid in te vullen:
Dit levert een waarde van 1,41 op.
Stap 3:
De verdeling van de toetsingsgrootheid vaststellen. De theorie zegt dat de toetsingsgrootheid T een t-verdeling heeft met n-1 vrijheidsgraden. De toetsingsgraden hangen af van vrijheidsgraden. Op het moment dat er niet meer gezegd wordt dat men weet wat de standaarddeviatie is, moet er geschat worden uit de steekproef. Dit betekent dat er informatie uit de steekproef is gebruikt en dat er een stukje informatie verloren gaat. Hoe kleiner de vrijheidsgraden, hoe platter het bovenste deel van de grafiek en hoe dikker de staart. Hoe kleiner de steekproef, hoe minder vreemd het is dat men verder van de nulhypothese vandaan komt. Hoe groter de steekproef, hoe meer het lijkt op een standaard normale verdeling.
Onze T verdeling is een verdeling met n-1, dus 29 vrijheidsgraden. Hiermee kan de overschrijdingskans worden uitgerekend: 0.084. de overschrijdingskans moet kleiner zijn dan 0.05 om de nulhypothese te verwerpen, dit mag in dit geval dus niet.
Stap 4: conclusie trekken. Er is geen bewijs gevonden dat het BMI in onze steekproef statistisch significant hoger is dan 25, of: we hebben geen bewijs gevonden dat BMI in onze steekproef statistisch significant hoger is dan 25.
Er kan ook een tweezijdige toets worden gedaan. Stel we toeten de nulhypothese van =25, tegen H1: ≠ 25. Nu zijn grote afwijkingen in beide richtingen een aanwijzing dat H0 niet aannemelijk is. We berekenen dan de volgende overschrijdingskansen in positieve en negatieve richting: twee keer 0,084. De som van beide wordt de (tweezijdige) overschrijdingskans genoemd p=0.168. Bij tweezijdige toetsing krijg je altijd een grotere overschrijdingskans.
Er kan ook een betrouwbaarheidsinterval gemaakt worden. De aanname is dat het BMI normaal verdeeld is met gemiddeld en variantie σ2. Het 95% betrouwbaarheidsinterval voor bij onbekende variantie kan worden berekend aan de hand van de volgende formule:
Sigma is onbekend en wordt geschat m.b.v. de standaarddeviatie uit de steekproef. a hangt af van de t-verdeling, in dit geval geldt a=2.045. Invullen van de formule levert een betrouwbaarheidsinterval van 24,64 ≤ ≤ 26,96. De vraag is nu of de nulhypothese =25 verworpen moet worden. De waarde ligt binnen het betrouwbaarheidsinterval. Dit interval is een range van aannemelijke waarden in het populatiegemiddelde en een range van nulhypothesen die niet verworpen worden. Stel dat we nu de T-toets van twee populaties moeten doen. We willen onderzoeken of de bloeddruk van mannen verschilt van die van vrouwen. Er worden 50 mannen en 60 vrouwen van gelijke leeftijd geselecteerd. De gemiddelden van beide groepen wordt vergeleken door het verschil tussen de populaties (mannen en vrouwen) te beschouwen. Naast het verschil in gemiddelden is ook de spreiding in data van belang. Net als bij de steekproef moet rekening worden gehouden met de variatie tussen de mensen om iets met zekerheid te kunnen zeggen. De spreiding gaat meetellen.
Naast het verschil in gemiddelden zal ook de spreiding een rol moeten spelen in onze beslissing. De t-toets voor twee steekproeven houdt hier rekening mee. Voorwaarden zijn:
De uitkomsten zijn onafhankelijke trekkingen uit normale verdelingen.
De varianties van de 2 steekproeven zijn (ongeveer) gelijk.
Als aan beide voorwaarden voldaan wordt mag de T-toets gebruikt worden om het verschil in hypotheses te bekijken. De nulhypothese is dat het verschil tussen mannen en vrouwen 0 is. De alternatieve hypothese luidt dat het verschil niet 0 is. Er wordt =0,05 gehanteerd. Stel dat er een verschil van -4,1 gevonden wordt en SPSS geeft een 95% bhi van -4,7 tot -3,5. De nulhypothese kan dan op basis van deze gegevens verworpen worden, omdat 0 geen waarschijnlijke waarde is. Mannen hebben gemiddeld een waarde van de bloeddruk die 4,1 mmHg hoger ligt dan die van vrouwen. De 0 ligt niet in het bhi, dus de H0 zal verworpen worden.
Er is sprake van confounding op het moment dat er een derde variabele is die gerelateerd is aan de uitkomsten en de determinanten en die de relatie tussen deze twee beïnvloed. We gaan stratificeren naar de confounder en kijken binnen de straten van die confounder. Het doel is uiteindelijk een conclusie te trekken voor de hele groep op basis van de gestratificeerde gegevens.
Wanneer we kijken naar de relatie tussen leeftijd en hypertensie wordt een OR gevonden van 4,4 (ongestratificeerd: dus iedereen op één hoop). Het geslacht is dus gerelateerd aan een uitkomst en aan een determinant. Wanneer we hier geen rekening mee houden, kan er een vertekend beeld ontstaan. Er worden gestratificeerde tabellen gemaakt. Een Mantel-Haenszel OR is dan wat ingewikkelder: hetgeen van de mannen + dat van de vrouwen, gedeeld door de gegevens van mannen en vrouwen bij elkaar. Hier komt dan een OR van 3,99 uit. Er zit een verschil tussen de oude en de nieuwe OR, dit komt omdat de confounding is weggewerkt. Dit zit ergens tussen de OR van de mannen en die van de vrouwen omdat het een gewogen gemiddelde is. Op het moment dat er na stratificatie een andere relatie wordt gezien voor mannen en/of vrouwen, dan heeft het weinig zin om dit weer uit te middelen omdat het waarschijnlijk ging om confounding.
Dit kan gedaan worden m.b.v. ORs in SPSS, maar niet met het RR in SPSS. SPSS geeft een homogeniteitstoets. Deze geeft een p-waarde voor de vraag of ORs heel erg van elkaar afwijken of niet. Ook is er een toets van de conditional independence. Belangrijker is echter een gecombineerde OR plus een bhi.
Als er gestratificeerd wordt, en de ORs gaan beide naar beneden of omhoog, gaat het waarschijnlijk om confounding. Maar als ze verschillende kanten op veranderen kan er een probleem optreden. Dit betekent iets anders; namelijk dat het geen confounder betreft, maar een effect modifier. Het risico voor beide groepen is dan verschillend.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
2148 |
Add new contribution