Academische en Wetenschappelijke Vorming (AWV): Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL
- 2219 reads
Bevat aantekeningen bij het blok, gebaseerd op 2014-2015, komt overeen met onderwerpen uit meer recente collegejaren.
Onderzoeksvraag: Verlaagt Prozac de symptomen van depressie in mannen van 40-60 jaar? Is dit een goede onderzoeksvraag? Een onderzoeksvraag moet vier componenten bevatten, namelijk Populatie/Patiënt, Interventie, Controle en Uitkomst (Outcome): PICO.
Stel dat er een jonge psychiater (A) is en een depressieve man komt naar hem toe. Hij schrijft Prozac voor en zes weken later komt de man terug zonder symptomen. De psychiater behandelt nog drie depressieve mannen en zij komen ook terug zonder symptomen. De conclusie die de psychiater trekt, is dat Prozac werkt. Deze conclusie mag niet getrokken worden, want het natuurlijke beloop kan ook zijn dat de symptomen binnen zes weken weg zijn. Een andere psychiater (B) gelooft de resultaten niet. Psychiater A schrijft Prozac voor en na 6 weken zijn 8 van de 10 patiënten genezen. Psychiater B zet mensen op een wachtlijst en dan zijn na 6 weken 6 van de 10 patiënten genezen. Nu concludeert psychiater A dat Prozac beter is dan niks doen.
Elk onderzoek dat gedaan wordt, kan een naam krijgen zoals retrospectief, longitudinaal, follow-up en case-control. Het onderzoek dat psychiater A deed, was een case-series. Een case-series is niet belangrijk voor het bepalen van een therapeutische interventie. Het resultaat kan veroorzaakt worden door het natuurlijke beloop van de ziekte of door een non-specifiek effect. Er is power nodig, waarvoor gezorgd kan worden door een cohort te gebruiken. Er wordt dan een cohort studie gedaan. In dit geval wordt er een prospectief onderzoek gedaan. Door het introduceren van een controle groep kan worden uitgesloten dat het natuurlijke beloop zorgt voor genezing en niet het medicijn. Bij een cohort studie kan er een probleem zijn in de vergelijkbaarheid van de controle groepen. Een retrospectieve cohort studie zal zorgen dat de power goed is. Bij een RCT wordt het placebo effect ingevoerd. Een placebo is een pil, die er vanaf de buitenkant hetzelfde uitziet als het echte medicijn, alleen zit het medicijn er niet echt in. De patiënten weten niet of ze het echte medicijn (interventie) of een placebo (controle) krijgen. Bij RCT zorgt randomisatie voor gelijkheid van de prognose. Een controle groep vergemakkelijkt de vergelijking in het natuurlijke beloop van de ziekte. De placebo vergemakkelijkt blindering en dit zorgt voor gelijke co-interventies. Er is dan een unbiased uitkomst meting.
| Natuurlijk beloop | Non-specifiek effect | Vergelijkbaarheid | Uitkomst |
Case-series | Probleem | Probleem | Probleem | Probleem |
Prospectief cohort | Goed | Probleem | Probleem | Probleem |
Retrospectief cohort | Goed | Probleem | Probleem | Probleem |
RCT | Goed | Probleem | Goed | Probleem |
RCT + placebo | Goed | Goed | Goed | Goed |
In deze tabel staan de resultaten van een RCT.
| Overleden | Niet overleden | Totaal |
Medicijn | 20 | 80 | 100 |
Placebo | 40 | 60 | 100 |
Eerst wil men een risico verschil (RD) berekenen. Het risico is de waarschijnlijkheid dat iets zal gebeuren. Het risico is een getal: een percentage. Het risico verschil is het absolute verschil tussen twee risico’s. Als er geen effect is, dan zal de RD 0 zijn, want het risico zal in beide groepen even hoog zijn. Uit deze tabel kan men een RD halen, want het risico bij de medicijn groep is 20% en het risico bij de placebo groep is 40%. RD = 40-20=20%.
Het relatieve risico of de risico ratio (RR) is de verhouding tussen de twee risico’s. In dit geval is het RR 20%/40%=0,5.
De relatieve risico reductie (RRR) kan berekend worden met de formule 1-RR. In dit geval is dat dus 1-0,5=0,5.
De odds ratio (OR) is de verhouding van twee kansen: de kans binnen één groep om te overlijden en om niet te overlijden. Bij deze tabel is dat (20/80)/(40/60)=0,375. Als er geen effect is, dan is de odds ratio 1.
Number needed to treat (NTT) is het aantal patiënten dat behandeld moet worden om één bepaalde gebeurtenis te voorkomen (in dit geval gaat het om overlijden). Dit wordt berekend door 1/RD. In ons voorbeeld is dit 1/0,2=5.
Er is een richtlijn voor de medische literatuur. Het is richtlijn die zegt hoe men medische literatuur moet lezen en moet gebruiken, niet hoe deze geschreven moet worden. Het wordt gebruikt voor de kritische schatting van klinische artikelen. Er zijn drie vragen die men zich altijd kan stellen:
Zijn de resultaten valide? – Validiteit
Wat zijn de resultaten? – Resultaten
Kan ik deze resultaten toepassen bij mijn patiënten? – Toepasselijkheid
Bij elk van deze vragen kunnen weer een aantal andere vragen gesteld worden, om de hoofdvraag te kunnen beantwoorden.
We gaan nu kijken naar een checklist die gebruikt kan worden voor het kritisch lezen van klinische studies. Deze checklist bestaat uit een lijst aan vragen (terug te vinden in het blokboek of op de PowerPoint).
Kritisch lezen is belangrijk, omdat men wil weten of de resultaten die in een artikel staan ook echt waar zijn.
Er is een botsing tussen de dokter en de wetenschapper. De wetenschapper wil namelijk dat er twee groepen zijn met een gelijk baseline risico. De dokter weet echter welke patiënt er het best of het slechtst aan toe is en deze wil het juiste medicijn voor bepaalde patiënten.
Een abstract is een samenvatting van een groot artikel. Aan het eind van de inleiding staat meestal de onderzoeksvraag. Bij de methode staan de patiënt recruitment, het studie design en definities en de analyses. Tabel 1 beschrijft de patiënten populatie, oftewel het studie domein. De resultaten omvatten alles wat er gebeurt na de start van de trial. Voorbeelden zijn de follow-up, het effect en de veiligheid. De discussie is het deel van het artikel waarin de onderzoeker het meest vrij is om iets te vertellen. De lezer moet over dit stuk het meest kritisch zijn. De discussie is een korte samenvatting van de belangrijkste resultaten. Verder staan er de sterktes en zwaktes van het onderzoek in. Het is in feite een interpretatie van de auteurs.
Cohort studies zijn heel belangrijk, want ze kunnen worden gebruikt om bepaalde bijwerkingen van een medicatie vast te stellen. Zo heeft men met een cohort studie bekeken of de anticonceptiepil een verhoogd risico op diepe veneuze trombose zou kunnen geven. De definitie van een cohort: een groep van individuen die worden gevolgd over een bepaalde tijdsperiode. Andere namen voor cohort studies zijn ook longitudinale studies en follow-up studies.
Cohort vs. Dynamische populatie. Cohort: Deelnemer ben je op een bepaald moment doordat je op dat moment een aantal karakteristieken hebt. Er kunnen geen mensen later deelnemen. Het aantal deelnemers kan alleen maar omlaag gaan. De karakteristieken van deze deelnemers zullen veranderen in de loop van de tijd. Ze worden bijvoorbeeld ouder. Voorbeeld cohort: Alle mensen die in 2010 zijn geboren in Leiden. Dynamische populatie: Het is open en mensen kunnen deelnemen op elk moment. Deelnemers worden vervangen in het verloop van de tijd. Het aantal deelnemers kan omhoog of omlaag gaan. Het kan ook stabiel blijven. Karakteristieken blijven onveranderd in verloop van de tijd. Bijvoorbeeld: Studentenpopulatie in Leiden.
In een gerandomiseerde klinische trial zijn er bepaalde factoren waar men aan moet denken. Ten eerst is er randomisatie, dit resulteert in groepen met een zelfde prognose en hierbij wordt de voorkeur van de arts vermeden. Tabel 1 schrijft de patiënt populatie. Uit deze tabel kun je opmaken of de groepen vergelijkbaar zijn. Als het niet gebaseerd is op de p-waarde is het underpowered. Daarbij moet er ook blindering zijn. Bij blindering onderscheidt men enkel, dubbel en drievoudig. Drievoudige blindering houdt in dat ook de onderzoeker geen idee heeft welke patiënt welke behandeling krijgt. Blindering zorgt ervoor dat ook de patiënten niet weten wat voor middel zij krijgen toegediend.
De uitslag van een onderzoek hangt nooit alleen af van de p-waarde, maar hangt ook vooral af van de hoeveelheid mensen die betrokken is bij het onderzoek.
Follow-up studies zijn een heel andere tak dan de RCT. In deze soort van studie bestudeert men een bepaalde factor en kijkt wat voor uitkomst deze heeft. Bijvoorbeeld: wat is het effect van roken op het risico op longkanker? Tijdens een follow-up studie worden mensen gevolgd in de tijd, maar net als bij een RCT kijkt men naar de kenmerken van patiënten op tijdstip 0. Daarna worden enkele mensen wel blootgesteld aan een bepaalde factor en andere niet. Zo kan men kijken in hoeverre deze factor een risico zal zijn voor bijvoorbeeld longkanker.
Er kan een onderscheid worden gemaakt tussen experimentele en observationele onderzoeken. Bij experimentele onderzoeken worden de mensen bepaald door de onderzoeker en vindt er randomisatie plaats. Bij observationele onderzoeken worden de mensen en de behandeling bepaald door de arts en de patiënt. Aangezien de arts hierbij dus bepaalt welke behandeling de patiënt zal krijgen, is deze vorm van onderzoek niet willekeurig.
We hebben observationele studies nodig omdat het simpelweg af en toe niet mogelijk is om een RCT toe te passen. Dit kan komen doordat het niet ethisch is om mensen bijvoorbeeld te gaan laten roken. Soms kan een RCT ook lastig zijn omdat een patiënt zo zijn voorkeuren heeft voor een bepaalde behandeling. Op deze manier ga je dus geen patiënten vinden die het geen probleem vinden om te randomiseren.
De source populatie is de populatie die men wil studeren. In een cohort studie heb je de mensen die zijn blootgesteld en de mensen die niet zijn blootgesteld en deze worden gevolgd over de tijd. Na een bepaalde tijd wordt gekeken welke mensen de ziekte wel hebben ontwikkeld en welke niet.
In cohort studies worden er bepaalde effectmaten gebruikt. Deze effectmaten zijn specifiek voor deze vorm van onderzoek. Een case-control studie kan weer andere effect maten gebruiken. Bij cohort studies kijkt men naar de cumulatieve incidentie; het absoluut risico op een ziekte. Stel er worden 5 personen gevolgd over 2 jaar, waarvan er 2 na 1 jaar overlijden. De cumulatieve incidentie is dan 2/5.
| Uitkomst + | Uitkomst - | Totaal |
Blootgesteld | A | B | A + B |
Niet Blootgesteld | C | D | C + D |
Men berekent de cumulatieve incidentie (CI)
CI onder blootgestelde = A / (A+B)
CI onder niet-blootgestelde = C/ (C+D)
Het relatieve risico (RR) is CI(blootgesteld)/CI(niet blootgesteld)
Incidentiecijfer (IC): absoluut risico op ziekte met tijdseenheid
IC blootgestelde = A / persoonstijd
IC niet-blootgestelde = C / persoonstijd
Zowel in een gesloten cohort als in een dynamische populatie kan men goed gebruik maken van het incidentiecijfer. De cumulatieve incidentie kan men niet gebruiken in een dynamische populatie en in een gesloten cohort alleen als de periode van follow up kort zal zijn.
Cohort studies zijn heel erg handig wanneer men een bepaalde factor bestudeert waar mensen maar heel weinig aan worden blootgesteld. Daarbij kan er meer dan één uitkomst worden bestudeerd en is er goede kwaliteit van de data die men gebruikt. Cohort studies zijn niet handig wanneer men hele zeldzame ziektes bestudeert en deze studies kunnen lang duren. De oplossing hiervoor is om een retrospectief onderzoek te doen, maar dit zorgt voor minder betrouwbare data. De mogelijkheid bestaat ook dat er bias en confounding is.
Prospectief en retrospectief zijn te onderscheiden in de tijd. Prospectief betekent dat men zal bekijken wat er gebeurt in de toekomst. Bijvoorbeeld men bepaalt op tijdstip 0 welke mensen er roken en welke niet. 10 jaar later zal men kijken hoeveel procent van deze mensen is overleden. Retrospectief betekent dat mensen in het verleden gaan kijken naar een bepaalde groep mensen en dan naar de gegevens van vandaag gaan kijken wat de uitkomst zal zijn. Een RCT kan alleen maar prospectief zijn, omdat men niet terug kan gaan in de tijd om een interventie te doen en dan kijken wat er is gebeurd. Dit is dus niet mogelijk. Een retrospectief onderzoek kan soms beter zijn dan een prospectieve studie omdat deze vaak sneller gedaan kan worden. Dus als men snel een bepaald resultaat wil zien, zou dit een betere vorm van studie zijn. Wel is er een nadeel aan retrospectieve studies, want het is afhankelijk van de beschikbare data.
Het probleem met studies is vaak dat de groepen mensen die worden vergeleken niet overeenkomen in bepaalde karakteristieken. Wanneer men de normale distributie gebruikt leidt dit vaak tot groepen die niet te vergelijken zijn.
Een meta-analyse is het gebruik van statistische technieken in een systematische review om resultaten van geïncludeerde onderzoeken te integreren. Het is dus een onderzoek waarin onderzoeken van een bepaalde ziekte of behandeling worden samengevoegd om een secuurdere uitkomst te verkrijgen. Op deze manier kunnen er soms uitspraken worden gedaan en inzichten verkregen worden die voorheen nog niet gezien zijn, maar door de gegevens samen te voegen wel. Wanneer iemand bijvoorbeeld bij je komt met de vraag of chemoradiatie de beste behandeling is voor baarmoederhalskanker kun je meta-analyse gebruiken. Je zoekt dan uit andere onderzoeken resultaten en voegt deze allemaal bij elkaar tot een nieuw verslag. Uit dit verslag kan men dan halen of chemoradiatie daadwerkelijk de beste behandeling is, of dat er een betere behandeling beschikbaar is.
Er is een onderscheid te maken tussen een systematisch en een niet-systematisch artikel. In een systematische review gebruikt men een procedure om een klinische relevante vraag te beantwoorden. Er zijn meestal meerdere auteurs en er is een duidelijke vraagstelling. Er kan meta-analyse gebruikt worden. Er is een systematische zoek en analyse strategie. Bij een niet-systematisch artikel worden er heel veel data gebruikt en de artikel is veel onduidelijker. Een analyse-strategie is absent.
De systematische artikel bestaat uit een aantal dingen: een goede onderzoeksvraag, men moet studies zoeken in de literatuur, men maakt een selectie van de literatuur, er is een kritische schatting, data extractie, data synthese, de resultaten worden gepresenteerd in een gestructureerd verslag en er moet een discussie aanwezig zijn. Er moet een goede onderzoeksvraag worden geformuleerd aan de hand van PICO. Pooling gebeurt door het verhogen van het aantal deelnemers, vanuit verschillende trials. Hierdoor verhoogt de aanname dat het behandelingseffect daadwerkelijk bestaat. Het wordt ook wel gezien als het verhogen van de power van de studie.
Zoeken in de literatuur: men moet alle literatuur doorzoeken, omdat er anders een grote kans is dat men iets zal missen. Hiermee voorkomt men publicatie bias: positieve resultaten worden meer gepubliceerd dan negatieve resultaten. Als dit niet wordt meegenomen in het onderzoek kan er een heel groot significant effect uit komen, terwijl dit dan helemaal niet het geval hoeft te zijn. Selectie van de literatuur: je moet vermelden waarom je sommige informatie niet hebt gebruikt en andere informatie wel. Men kan de literatuur selecteren op basis van heel veel verschillende aspecten. Zo kan het zijn dat men studies wil hebben waarbij randomisering en blindering is toegepast. Maar het kan ook zijn dat een studie niet specifiek is gericht op de ziekte die jij zoekt, maar op een grotere groep. Bijvoorbeeld op kanker in het algemeen, in plaats van op baarmoederhalskanker.
Kritische schatting: bij blindering weten zowel de dokter als de patiënt niet welke pil er wordt gegeven. Zo wordt voorkomen dat de dokter al beïnvloed wordt en daarmee ook de patiënt zal beïnvloeden. Er kan ook sprake zijn van detectie bias. Je hebt bijvoorbeeld 2 soorten anticonceptiepillen bij vrouwen. Van de ene pil is de arts overtuigd dat het heel goed werkt tegen acne en van de andere niet. Er komt een vrouw bij de arts met rode bultjes op haar huid. De arts vraagt welke pil zij gebruikt. Als de vrouw aangeeft de pil te gebruiken waarvan de arts is overtuigd dat het acne voorkomt zal de arts eerder een andere diagnose stellen dan acne. Terwijl als de patiënt de andere pil gebruikt de arts eerder de diagnose acne zal stellen. Ook moet er worden gekeken of er geen co-interventie is. Als er sprake is van co-interventie kan het gebeuren dat de ene patiënt meer wordt gestimuleerd dan de ander. Dit beïnvloedt de onderzoeksresultaten. Je moet mensen dus altijd een placebo geven in plaats van helemaal niks. Er kunnen mensen verloren gaan in het onderzoek (tijdens de follow-up), deze moeten ook bekeken worden. Het verlies van follow-up moet lager zijn dan 20%, anders is het onderzoek niet meer relevant. Als laatste is het belangrijk dat men kijkt naar de sponsoring. Het gebeurt namelijk heel vaak dat onderzoeken die gesponsord zijn een gunstig resultaat laten zien.
Case-control studies zijn eigenlijk het tegenovergestelde van cohort studies. Een case-control studie kan bijvoorbeeld worden uitgevoerd om een verband te vinden tussen veneuze trombose en lange vliegreizen. Hiervoor heb je mensen nodig met trombose en die hebben gevlogen. Tevens zijn er mensen nodig die niet gevlogen hebben. Hiermee zou je een 2x2 tabel kunnen maken. De vliegreis is de factor waaraan men wordt blootgesteld en deze zal dus ook in de verticale rij staan. Men gebruikt hier een case contol studie omdat de uitkomst (in dit geval veneuze trombose) een lage prevalentie heeft.
Om überhaupt een case-control studie te beginnen moet men wel weten of er een causale relatie zou kunnen zijn tussen twee dingen. Als we nog eens terug kijken naar het voorbeeld van de trombose en de vliegreis. Er zijn per jaar heel veel mensen die vliegen en er zijn er maar weinig die ook trombose zullen krijgen. Het zou dus makkelijk toeval kunnen zijn. Echter is het wel zo dat vliegen gepaard gaat met stase van het bloed in de benen.
In een case-control studie wil men dus weten hoeveel mensen met trombose er daarvoor hebben gevlogen. Hierbij moet je ze wel vergelijken met mensen die misschien af en toe maar vliegen. Hiervoor moet je weten hoeveel normaal eigenlijk is. Dit kan men doen aan de hand van de website van KLM/Schiphol, door het CBS te checken of een enquête te sturen naar de gehele populatie. Dit laatste is echter wel heel veel werk, dus kan men ook een random steekproef doen. Een steekproef is voldoende, men hoeft niet alle mensen te vragen.
Voor de studie zal je dus alle mensen met trombose binnen een bepaalde tijd moeten gaan verzamelen. Dit zijn de cases. De controle groep is een steekproef van de normale populatie. Aan de hand van deze groepen vergelijk je de frequentie van blootstelling in mensen met de blootstelling en mensen zonder de blootstelling.
Bij case-control studies maakt men vaak gebruik van de Odds-Ratio: deze kan men ook weer berekenen aan de hand van een 2x2 tabel. Het maakt niet uit hoe groot men de groep van onderzoek maakt, de odds zal altijd gelijk blijven. Bij een case-control studie moet er altijd een odds-ratio worden vermeld.
| Trombose + | Trombose - | Totaal |
Vliegen + | A | B | A+B |
Vliegen - | C | D | C+D |
Totaal | A+C | B+D | A+B+C+D |
De odds-ratio kan men dan berekenen door OR = (A/B) / (C/D). De odds = p/(1-p)
In een case-control studie moeten er nieuwe cases zijn en er mag absoluut geen selectie plaatsvinden. Het vinden van een goede control groep is echter best lastig. Men vraagt vaak partners of vrienden van de patiënt. Dit is echter niet altijd handig. Wanneer de patiënt bijvoorbeeld vaak vliegt, is de kans groot dat de partner ook vaak zal vliegen. Verder kunnen er andere mensen in het ziekenhuis worden gevraagd of neemt men gewoon een random groep uit de populatie.
Verschillen tussen cohort en case-control
In case-control kan men maar één uitkomst bestuderen, terwijl er in een cohort meerdere uitkomst kunnen worden bekeken. In een cohort maakt men gebruik van een absoluut en een relatief risico en in de case-control studies is er alleen een relatief risico (hetzelfde als de OR). Case-control studies worden gedaan bij ziektes (uitkomsten) die zeldzaam zijn.
In etiologisch onderzoek onderzoekt men een associatie. Door deze associatie komt men tot een interpretatie. Een positieve associatie kan verklaard worden door een causale relatie, door kans, door een systematische fout in het design of uitvoeren van de studie of door confounding. De systematische fout die gemaakt wordt door de onderzoeker, is bias. Dit kan niet opgelost worden tijdens de analyse van de resultaten. Confounding is aanwezig in natura. Er zijn verschillende associaties en uitkomsten en dit kan wel opgelost worden tijdens de analyse van de resultaten. De begrippen precisie en validiteit gaan we bekijken aan de hand van een dartbord. Precisie zegt hoe groot de kans is dat verschillende studies dezelfde resultaten vinden als in een bepaalde studie. We gaan kijken naar vier situaties:
Een dartbord met rechtsboven vijf darts dicht bij elkaar. Hier zijn vijf studies die bijna dezelfde resultaten vinden (heel precies), maar ze bevinden zich ver van de roos (niet valide). Er is dus een gebrek aan validiteit: systematische fouten.
Een dartbord met in het midden één dart en verder bovenin, onderin, rechts en links een pijl. Dit is niet precies, maar gemiddeld zitten de darts in de roos: valide. Er is dus een gebrek aan precisie: random fouten. De fouten die gemaakt worden zijn bij elke studie anders.
Een dartbord met vijf darts op heel verschillende plekken, maar niet in de roos: het is niet precies en niet valide.
Een dartbord met vijf darts dichtbij of in de roos. Deze studie is heel precies (dezelfde resultaten) en heel valide (allemaal in/dichtbij de roos).
Een random fout in een case-control studie (een niet-differentiële misclassificatie) is niet verschillend in de patiënten of de controlegroep. Stel dat 1/3 van de personen met blootstelling verkeerd geclassificeerd wordt als niet blootgesteld, dan wordt de odds ratio lager (hij komt dichter bij één te liggen) dan bij een studie waarbij het perfect gemeten is. Als de odds ratio één is, dan is er geen verschil. Bij random fouten neigt het dus meer naar ‘geen effect’. Random fouten geven altijd een onderschatting van het echte risico en nooit een overschatting.
Bij een systematische fout gebeurt er juist iets heel anders. Er wordt een grafiek gemaakt met op de x-as de steekproef grootte en op de y-as de fouten. De hoeveelheid random fouten kan verkleind worden door het vergroten van de steekproef. Systematische fouten zullen echter niet minder worden door het vergroten van de steekproef. Als iemand een systematische fout gemaakt heeft, dan kan dit niet opgelost worden door het doorgaan met includeren van patiënten. Bias is dus een systematische error in het design of het uitvoeren van een studie. Men kan niet zeggen in welke richting het zal gaan: een random error zorgt voor een onderschatting, maar een systematische fout kan voor meer dingen zorgen. Er zijn 3 categorieën van bias:
Selectie bias – verkeerde vergelijking door een verschillende selectie van groepen. Dus er is een fout gemaakt in de selectie van de groepen.
Informatie bias – slechte vergelijking door verschillende methodes van data collectie.
Confounding bias
Selectie bias is voornamelijk een probleem in case-control studies. Het is een probleem als men de cases of de controle groep selecteert en men te veel (overselectie) of te weinig (onderselectie) mensen selecteert met een bepaalde blootstelling. Dit is voornamelijk een probleem bij de controle groep. Stel dat men de relatie tussen roken en longkanker onderzoekt, dan is er een bepaald percentage van de mensen dat rookt. In de controlegroep kan er dan een andere frequentie van rokers zijn dan in de normale bevolking. Als er overselectie is van rokers, dan zal er een onderschatting zijn van de relatie. Bij onderselectie, is er overschatting. Het is dus belangrijk waar men de controles vandaan haalt. Het doel van de controlegroep is het schatten van de frequentie van de blootstelling in de bron populatie van de cases. De selectie hangt dus af van de blootstelling.
In case-control studies kan er selectie bias zijn. Hieronder volgen enkele voorbeelden:
Relatie tussen roken en MI? Controles worden geselecteerd vanuit hetzelfde ziekenhuis. Hierbij is er een probleem in de controlegroep: de kansen van het vinden van een hogere frequentie van roken is waarschijnlijk. Er is dan een overselectie in de controles en dus een onderschatting van het risico.
Relatie tussen hormoontherapie en MI? Controles worden geselecteerd vanuit vrouwen met een heup fractuur. Hormoontherapie beschermt tegen heupfracturen. Het probleem bij deze controles is dan dat de vrouwen waarschijnlijk minder hormoontherapie doen, want anders hadden ze hun heup niet gebroken. Er is een onderselectie en dus een overschatting van het risico.
Relatie tussen alcohol en oesophagus carcinoom? De controles zijn vrienden van de casus. Vrienden lijken op elkaar wat betreft het sociaal gedrag, dus de vrienden zullen meer drinken dan gemiddeld. Er is een overselectie en dus een onderschatting van het risico.
Bij een cohort studie gebeurt het bijna nooit. Wel kan er selectie bias zijn in follow-up studies. Dit komt door een differentieel verlies van follow-up. De hoeveelheid mensen ‘loss to follow-up’ verschilt van groep tot groep, door een aantal factoren:
Migratie – verlies van heel gezonde individuen
Weigering tot follow-up – meestal minder gezonde individuen.
Overlijden door andere oorzaken – een voorbeeld is dat rokers overlijden aan longkanker in een onderzoek naar MI.
Informatie bias is onvergelijkbaarheid door verschillende methodes van data collecties. Dit kan in observationele studies gebeuren. In case-control studies wordt er begonnen met mensen die de uitkomst hebben en niet. Data collectie op blootstelling verschilt tussen casussen en controles. Het interviewen van cases gaat bijvoorbeeld voor de studie en het interviewen van controles pas na de studie. Bij een cohort studie begint men met wel en niet blootgestelde mensen en men wil informatie verkrijgen over de uitkomst. Als men hier anders naar zoekt of andere criteria gebruikt in de twee groepen, dan zal er bias ontstaan. Voorbeelden zijn recall bias en observer bias. Recall bias heeft te maken met het geheugen van deelnemers en het gebeurt alleen bij case-control studies. Er zijn al uitkomsten en daarna gaat men vragen of mensen wel of niet zijn blootgesteld aan bepaalde factoren. Een voorbeeld is: vrouwen die een baby krijgen met een geboortedefect, die herinneren beter welke medicijnen ze gebruikt hebben tijdens de zwangerschap dan vrouwen die gezonde baby’s krijgen. Er zal hierdoor een overschatting zijn van het risico. Er is dan namelijk meer blootstelling in de cases dan in de controles, doordat de controles het niet zullen herinneren. Observer bias kan in case-control studies en in cohort studies voorkomen. De persoon die de data verzamelt, differentieert deze data in de vergeleken groepen. De informatie over de blootstelling beïnvloedt de classificatie van de uitkomst of andersom. Een voorbeeld is onderzoek naar de relatie tussen roken en longkanker. De observer vraagt een case gedetailleerder naar zijn rook gewoontes dan een patiënt uit de controle groep. Ook dit leidt tot een overschatting van het risico. Voor informatie bias zijn er enkele oplossingen:
Objectieve data collectie, door farmacologische informatie. Dit kan bijv. gedaan worden bij de moeders met baby’s met geboortedefecten.
Blinderen van de observer voor de status van de deelnemer.
Instructie voor interviewers.
Voor recall bias: kies een controle groep met een gelijke recall.
Publicatie bias is dat positieve studies vaker gepubliceerd worden dan negatieve studies.
Confounding is het ‘onderbuikgevoel’, het gevoel dat er ‘iets anders’ moet zijn. Confounding is dat men het effect van een effector met het effect van een andere effector verwart. Het ‘effect’ van de blootstelling op de ziekte is in feite het effect van de confounder. Een variabele verstoort de oorzaak-effect relatie van een andere variabele. Een heel simpel voorbeeld is een studie van het effect van grijs haar op het risico om te overlijden. Kan er dan uit het onderzoek geconcludeerd worden dat grijs haar een hoger risico geeft op overlijden? Nee. Er is ook een relatie tussen grijs haar en leeftijd. Is er ook een relatie tussen leeftijd en het risico om te overlijden? Ja, dit is er. Er is geen effect van haarkleur met een subgroep van leeftijd. Het effect van haarkleur wordt uitgelegd door leeftijd, leeftijd is een confounder. Criteria voor een confounder zijn:
Een confounder wordt geassocieerd met de uitkomst (conditioneel op de blootstelling; niet noodzakelijk direct causaal, maar correleert aan de causale factor).
Een confounder wordt geassocieerd met een blootstelling.
Een confounder kan niet het resultaat zijn van de blootstelling; het mag niet in de causale pathway zitten. De confounder moet de blootstelling beïnvloeden.
Hiervan kan een schema gemaakt worden:
De dubbele pijl tussen C en E laat een associatie zien. Een confounder mag géén consequentie zijn van de blootstelling, maar een oorzaak van de blootstelling.
In observationele studies moet confounding vermeden worden. Vermijden kan via:
Restrictie: alleen een bepaalde subgroep analyseren.
Matching: kan gedaan worden in een cohort studie. Er zijn blootgestelde mensen en niet blootgestelde mensen. Voor elke patiënt moet er dan een passende controle gevonden worden.
Stratificatie: het analyseren in subgroepen.
Statistische aanpassingen.
In welke studie designs kan er het probleem van confounding zijn:
Case-control studie
Retrospectieve cohort studies
Prospectieve cohort studies
Gerandomiseerde gecontroleerde trials
In epidemiologische studies is het belangrijk om bias te vermijden en aan te passen voor confounding. Bias is een fout/inaccuraatheid van de onderzoeker en confounding is dit niet. Confounding is het verwarren van het effect van twee determinanten. Het is een risicofactor voor de uitkomst, die in voorgaande studies ontdekt is.
Klinisch onderzoek heeft een aantal karakteristieken, want de eenheid van het onderzoek is een persoon en er zijn altijd numerieke aspecten. Dit betekent dat er statistieken aan vast zitten. Nadelen van klinisch onderzoek zijn dat er vaak veel variabelen zijn en dat het vaak niet experimenteel is. Voordelen zijn dat het vaak de enige manier is om aan te kunnen tonen of iets op gaat in mensen: of er effecten zijn in mensen.
Wat is causaliteit? Causa (Latijn) betekent oorzaak. Een oorzaak is iets zonder welke een bepaald iets niet gebeurd zou zijn. Het vormt dus het verschil tussen het wel en niet gebeuren van een bepaald iets. Een voorbeeld: een auto rijdt tegen een boom. De bestuurder heeft alcohol in zijn bloed. De causale vraag is: is alcohol de oorzaak van het ongeluk? Nee. Is alcohol een oorzaak van het ongeluk? Mogelijk. Jaarlijks zijn er 250 doden in het verkeer waar alcohol bij betrokken was. Het totale aantal verkeersdoden was 900 per jaar. Dit lijkt heel veel (250/900), maar waarom? Dit komt doordat er van de mensen die niet overlijden in het verkeer, veel minder mensen alcohol gedronken hebben.
| Fataal ongeluk + | Fataal ongeluk - |
Alcohol + | 250 | 3 |
Alcohol - | 650 | 97 |
De odds ratio is hier (250/650)/(3/97)=12,4=(250/3)/(650/97)
Een individuele oorzaak laat zien hoe het in dat ene geval was. Rechtszaken gaan bijvoorbeeld om individuele oorzaken. Een legale oorzaak is individueel, met uitzonderingen. Een biomedische oorzaak is vaak algemeen. Bij iemand die met alcohol op achter het stuur gaat zitten, en een ongeluk veroorzaakt, staat het vast dat er een verkeersfout is begaan i.v.m. alcohol gebruik.
Koch’s kijk op causaliteit: een bacterie veroorzaakt een ziekte als hij aanwezig is in elke casus, hij geïsoleerd kan worden en kan groeien en de kweek altijd de ziekte overdraagt. Dit zijn de postulaten van Koch. Een oorzaak moet noodzakelijk en sufficiënt zijn (als de bacterie wordt ingespoten, dan wordt men ziek). Is dit waar voor rijden met alcohol op? Als het noodzakelijk zou zijn, zouden er geen ongelukken gebeuren zonder alcoholgebruik. Als het sufficiënt zou zijn, zou alcohol gebruik altijd leiden tot een ongeluk. Beiden uitspraken zijn niet waar. Een sufficiënte oorzaak zegt dus dat de oorzaak zal leiden tot de consequentie en een noodzakelijke oorzaak zegt dat er zonder de oorzaak geen consequentie zou zijn.
Het componenten oorzaak model (Mill) wordt gezien als een taartpunt. Elke punt van de taart is een oorzaak, want als één van deze taartpunten weggehaald wordt, dan zal de uitkomst niet ontstaan. Elke component op zich is niet noodzakelijk of sufficiënt, maar samen zijn ze sufficiënt. Dit is bijvoorbeeld zo bij ziektes, want elke ziekte heeft verschillende component oorzaken. Elk component is dan een oorzaak, maar ze zijn niet allemaal bekend.
Wanneer is iets een oorzaak? Dit is zo als er meer mensen ziek zijn met de oorzaak dan zonder en als er geen simpelere alternatieve verklaring voor is. Roken is een oorzaak van longkanker, want rokers hebben vaker longkanker dan niet rokers. Grijs haar is geen oorzaak voor overlijden, want er is een simpelere verklaring (leeftijd).
Hume’s probleem: hoe kan men uitspraken doen over niet geobserveerde gebeurtenissen? Dit kan alleen als iets een oorzaak zou zijn. Dit wordt normaliter gedaan door inductie (tot nu toe: altijd als A gebeurt, dan volgt B [altijd als ik het lichtknopje indruk, dan gaat het licht aan]). Dit is niet een formeel mathematisch bewijs. In een open systeem (empirisch onderzoek) is formeel bewijs onmogelijk.
Popper’s falsificatie. Een voorbeeld hiervan is de uitspraak: alle zwanen zijn zwart, waarbij er falsificatie is: het zien van een witte zwaan. Dit wordt gedaan als inductief bewijs onmogelijk is. Het werkt goed voor causaliteit zoals bij Koch’s postulaten. Het is geen praktische toepassing voor component oorzaken. Als een stelling niet falsifieerbaar is, dan is het niet onderhevig aan de wetenschap. Voorbeeld: God bestaat niet. Dit kan niet gefalsifieerd worden.
Falsificatie is moeilijk voor complexe oorzaken. Het uiteindelijke oordeel is subjectief. De afweging wordt gedaan door positieve criteria en Bayesiane redenering. Popper’s falsificatie: het bepalen van de grenzen van de wetenschap.
Peter Medawar: ‘de mate waarin iemand gelooft in een hypothese, heeft er geen effect op of het waar is of niet’. Dus: men moet onderzoek doen.
Hill’s ontwikkelde de eerste RCT. Hij was ook een van de belangrijkste in de onderzoek naar longkanker. Er zijn criteria van Hill over causaliteit. Dit zijn positieve criteria, waarvoor geen bewijs is maar ze geven een referentiekader. De Hill’s criteria moet je leren want komen terug in het tentamen.
De theorie van Bayes zegt dat P(A|B) = P(B|A)P(A) / P(B). A is de ziekte en B is de test. P(A|B) is ongeveer gelijk aan P(A). De mogelijkheid dat iets waar is (A), gegeven een observatie (B), hangt af van de hele mogelijk op het voorkomen van A en B.
De waarschijnlijkheid dat iemand met een positieve test ziek is, hangt af van de totale waarschijnlijkheid van ziekte. De posteriori waarschijnlijkheid hangt af van de a priori waarschijnlijkheid. Dezelfde redenering kan toegepast worden bij onderzoeksbevindingen. Het onaannemelijke is onwaarschijnlijk om waar te zijn.
De uitspraken van de verschillende personen over oorzaken zijn dus:
Mill: de oorzaak is deel van component oorzaak.
Hume: de oorzaak kan niet bewezen worden.
Popper: de oorzaak kan gefalsifieerd worden.
Bayes: de oorzaak kan gezien worden als waarschijnlijkheid.
Drie algemeen geldende definities van oorzakelijkheid:
Een rechterlijke oorzaak verwijst naar een oordeel van causaliteit in een persoon.
Een medische oorzaak verwijst naar de vermoeden van causaliteit in een patiënt.
Een epidemiologische oorzaak verwijst naar een vaststelling van causaliteit in een populatie. Er kan iets bepaald worden: bepalen of er causaliteit is in algemene zin. Men kan dus niks zeggen over een individu en het kan niet worden bewezen.
Etiologie in de geneeskunde. Er zijn drie typen vragen:
Wat is er mis met me? Diagnose
Wat zal er met me gebeuren? Voorspelling
Kan ik iets doen om dit te voorkomen? Interventie
Een oorzaak is een object of event en zonder dit object of event zou er iets niet zijn gebeurd. A veroorzaakt B (alleen maar als) wanneer A dan B en wanneer geen A dan geen B (alle andere dingen blijven hetzelfde). De counterfactual theorie zegt wat er was gebeurt als er een interventie geweest zou zijn in het verleden: als er in het verleden één ding zou veranderen en de rest hetzelfde zou blijven, wat zou er dan gebeurd zijn? Het is hypothetisch, want men kan dit niet waarnemen. In feite zou men dan teruggaan in de tijd en een bepaalde blootstelling veranderen. Ceteris paribus: alle andere dingen zijn gelijk. RCT: twee groepen met een gelijk baseline risico op een ontwikkelende uitkomst. Dit nadert het counterfactual ideaal. Bij multicausaliteit zijn er meerdere oorzaken.
Component oorzaak model: alles is een enkele component oorzaak en één causaal mechanisme leidt tot de uiteindelijke ziekte (alle componenten bij elkaar). Dit kan voorgesteld worden als een triviant rondje. Iedereen heeft een aantal triviant rondjes. Bij een trigger (dus één van de rondjes raakt vol), dan gebeurt er iets (overlijden o.i.d.). Als er één component oorzaak is die altijd de laatste oorzaak is die het rondje vol maakt, dan wordt dit vaak gezien als dé oorzaak. Dit is dan niet zo, want naast die oorzaak, moeten er nog andere oorzaken zijn om het rondje vol te maken. Als iemand altijd al A, B, C en D heeft, dan maakt E het rondje vol. A t/m D zijn wel nodig. Dus ook A t/m D kunnen voorkomen worden om de ziekte (of uitkomst) te voorkomen. Meerdere oorzaken leiden dus ook tot ziekte.
Associatie impliceert geen oorzakelijkheid. Observaties geven data over associaties, niet op oorzakelijkheid. Kan men, door slechts observatie, komen tot causale gevolgtrekking? Confounding en bias kunnen leiden tot associaties, hoewel causale associaties niet aanwezig zijn. Hoe zit dit bij een RCT? In principe zit het in het RCT dat er geen bias en confounding (of minimaal) is. Bij een RCT zijn er twee groepen met hetzelfde risico op de uitkomst en slechts één ding is verschillend: de interventie. RCT’s zijn niet altijd mogelijk.
Hill’s criteria zijn 9 criteria:
Sterkte van de associatie: een risicofactor verhoogt het risico op een ziekte 100 keer, vergeleken met een factor die het risico slechts 1,1x verhoogt. Dit verwijst naar de mogelijkheid van bias. Het zou ook toeval kunnen zijn.
Consistentie: het is waar wanneer hetzelfde resultaat wordt gevonden op verschillende locaties, door verschillende onderzoekers, met verschillende studie designs etc.
Specificiteit: het is waar wanneer de factor van belang geassocieerd is met een bepaald type ziekte met opvallende karakteristieken.
Temporaliteit: een oorzaak moet zijn consequentie voorgaan. Dit is de enige uitspraak waarvan men kan zeggen dat het een echt criterium is, en niet een leidraad. Belangrijk om te weten is dat men niet altijd weet dat een oorzaak speelt.
Biologische gradiënt: kansen op ziekte vergroten als het niveau van blootstelling ook verhoogt (dosis-response relatie).
Plausibiliteit: er moet een biologische logische verklaring zijn voor het causale mechanisme. Het moet niet in contrast staan met wat al bekend is in de biologie.
Coherentie: het is waar wanneer de oorzaak en effect relatie past in de biologische karakteristieken van de ziekte, zoals bekend van laboratorium studie.
Experimentele resultaten: experimentele resultaten, van RCT, laboratorium testen op mensen en dieren, kunnen observationele studies vervangen.
Analogie: het is waar wanneer de oorzaak-consequentie relatie gelijk is aan de al bekende en vastgestelde oorzaak-consequentie relaties.
Naar deze ‘criteria’ wordt altijd verwezen als ‘criteria’, maar het was nooit de bedoeling dat ze dit zouden zijn. Er zit dus maar één echt criterium tussen: temporaliteit.
De kruiswoord samenvatting (Susan Haack) zegt één toegang is één studie (empirisch bewijs). De toegang moet op dezelfde lijn liggen als bekende feiten en vastgestelde theorieën. Er zijn nieuwe studies die de manier waarop men denkt dat de wereld werkt, uitdagen. Deze studies moeten heel overtuigend zijn en ze dagen voorgaande toegangen uit.
Wat weet men dus over de oorzaak in de epidemiologische praktijk?
Counterfactual: het leidt tot meer ziekte indien aanwezig.
Mill/Rothman: Het is deel van een component oorzaak
Hume/Popper/counterfactual: het kan niet bewezen worden, slechts gefalsifieerd.
Counterfactual: denk RCT, als men denkt aan een RQ.
Haack: het moet ondersteund worden door meer dan één studie.
Bradford Hill: criteria als overwegingen.
Een vergelijking van risico kan gedaan worden door een ratio. Er zijn meerdere soorten ratio’s, zoals risico ratio, rate ratio, odds ratio en hazard ratio. De context kan bij een ratio echter verloren gaan. Het absolute risico verschil gaat bijvoorbeeld verloren bij het berekenen van een ratio. Het absolute risico verschil speelt een rol bij een RCT. Ook is er de attributieve factor.
Populatie attributieve fractie (PAF). We kijken naar een rode balk: de hele onderzoekspopulatie. In deze populatie zijn er mensen die niet ziek worden (D-; lichtrood) en mensen die wel ziek worden (D+; rood). Dit is het risico dat heerst om ziek te worden. Van de mensen die ziek zijn, is een aantal mensen wel blootgesteld aan de expositie van interesse (E+; donkerblauw) en een deel niet blootgesteld (E-; lichtblauw). De PAF zegt hoeveel mensen er in het rode vakje zitten en ook in het donkerblauwe vakje. Oftewel: de proportie van ziekte in een populatie die toegeschreven kan worden aan de expositie van interesse. Hierbij hoort een formule, namelijk: PAF = ((Rtotaal-Rniet-blootgesteld)/Rtotaal)). De PAF is van belang, want als de expositie weggehaald zou kunnen worden, dan zou de groep mensen dus niet meer ziek worden.
Een voorbeeld:
| Ziek + | Ziek - | Totaal | Risico |
Expositie A | 30 | 1970 | 2000 | 30/2000=0,015 |
Niet-expositie A | 80 | 7920 | 8000 | 80/8000=0,010 |
Het totale risico is (30+80)/(2000+8000)=110/10.000= 0,011. Men deelt dus het aantal zieke patiënten door het totale aantal mensen. Het relatieve risico is dan 0,015/0,010=1,5. De PAF zou in dit geval zijn: (0,011-0,010)/0,011=9%. Dit betekent dat 9% van alle zieke patiënten blootgesteld was aan expositie A. Stel dat we nu naar een voorbeeld zouden kijken met een relatief risico van 1,75 (bijna hetzelfde als in het eerste voorbeeld), dan kan het zo zijn dat de PAF toch veel hoger is (27%). Dit komt door een verschillende prevalentie van expositie. Een derde voorbeeld heeft een hoog RR (11), een lage prevalentie van expositie en expositie C is bijna een noodzakelijke component oorzaak doordat de PAF 99% is. De som van deze 3 PAF’s is >100%, maar dat is niet raar omdat we het over totaal andere exposities hebben. Het kan dus zijn dat mensen meer exposities hebben en daardoor kan het totaal meer dan 100% worden.
Het absolute risico verschil wordt vaak vergeten, maar het is nodig. Dit is het geval bij:
Het absolute risico van de patiënt.
Bedoelde effecten/bijwerking ratio.
Het berekenen van het risicoverschil.
Risk difference (RD) = risico blootgesteld – risico niet blootgesteld. NTT = 1/RD.
Een punt schatting is belangrijk voor hoe men vervolgens in een onderzoek aan de slag gaat. Stel dat er een relatief risico is van 1,5 en een NNT van 200. Bij 200 mensen in de onderzoekspopulatie moet dan de risicofactor weggehaald worden, om één casus van ziekte te voorkomen. Het NNT geeft meer inzicht dan het RR, want als er andere basis risico’s zijn dan kan er wel eenzelfde RR zijn, maar dan is dit te zien aan het NNT. De basisrisico’s mogen zeker niet vergeten worden als men moet besluiten of er wel of niet behandeld gaat worden. Onderzoeksvragen worden altijd gegeven vanuit een puntschatting; een verschil.
De puntschattingen beantwoorden de onderzoeksvraag door middel van vergelijken. Er is één getal dat de onderzoeksvraag beantwoordt, maar hiermee gaat de context soms verloren. Hierdoor kunnen puntschattingen, gebaseerd op ratio’s, niet direct gebruikt worden maar moeten ze in context geplaatst worden. De context kan gegeven worden door middel van het absolute risico of NNT. Vooral binnen cohort studies is het NNT een van de meest inzichtgevende maten. Soms is er extra data nodig voor absolute risico’s, zoals bij case-control studies.
P-waardes helpen bij het schatten hoe zeker men is van berekeningen. Hierbij zijn ook betrouwbaarheidsintervallen van belang. De grens van 0,05 is willekeurig gekozen. De grens zorgt voor een tweedeling in denken: ja/nee? De P-waarde is gebaseerd op het effect, maar ook op de studie grootte. We nemen een voorbeeld, waarin 5 nieuwe medicijnen getest worden. Medicijn A heeft een P-waarde van <0,01. Medicijn B en C een P-waarde van <0,05. Medicijn D en E een P-waarde van >0,05. Hieruit kan echter nog niks geconcludeerd worden, want men weet nog niks over de effecten. Betrouwbaarheidsintervallen geven de grenzen waartussen het echte effect 95% van de keren ligt als de studie steeds opnieuw gedaan wordt. De waarschijnlijkheid over het bereik is niet uniform en de grenswaardes zijn onwaarschijnlijke waardes. De beste schatting is de punt schatting.
In het voorbeeld dat in het begin te vinden is, wisten we nog niet wat de effecten van de medicijnen waren: de context. Als we kijken naar de effecten, dan zien we dat alleen medicijn A en D een goed effect hebben. Medicijn D heeft het beste effect. In dit geval zou er dus voor dit medicijn gekozen worden, zelfs al is de P-waarde 0,052. Hier gaat het dus om statistisch significant versus klinisch relevant: het grootste effect telt.
Er kan geconcludeerd worden dat betrouwbaarheidsintervallen informatiever zijn dan P-waardes. Betrouwbaarheidsintervallen geven in feite dezelfde informatie, maar ook meer informatie over de sterkte van het ware effect. Waarom worden er dan toch P-waardes gebruikt? Dit is eigenlijk voor ‘drukke dokters’. Statistici en epidemiologen gebruiken de P-waardes niet, maar dokters willen vaak een ja/nee antwoord. Dit wordt gegeven door de p-waarde. Een uitzondering is wanneer een ja/nee antwoord echt nodig is.
Dus als men kijkt naar onderzoeksresultaten, dan moet er ook gekeken worden naar de context van de puntschatting. Het gaat er dan om wat de onderzoeksvraag is en wat men eigenlijk wil weten. Geeft de puntschatting het juiste antwoord? Soms kan er extra informatie gegeven worden, door de NNT of PAF. Deze waardes kan men gebruiken voor het schatten van de balans klinisch relevant versus statistisch significant. Ten slotte is het dus zo dat de P-waarde slechts een ja/nee antwoord geeft, dat meestal niet voldoende is. In plaats daarvan moeten een betrouwbaarheidsinterval en een puntschatting gebruikt worden.
Statistiek is het doen van uitspraken over een grote populatie, waarin men niet iedereen kan meten, door een steekproef te nemen waarop allerlei berekeningen gedaan worden.
Randomised clinical trial (RCT) gaat ervan uit dat er een onderzoeksvraag is (vaak gaat het om een nieuw middel waarvan men wil weten of het beter is dan een oud middel), maar meestal zijn er twee groepen die random gemaakt zijn. De ene groep krijgt medicijn A en de andere groep krijgt medicijn B. Wat doet men? Men selecteert mensen voor de studie. Daarna randomiseert men de mensen voor behandeling A en B. Maar een belangrijke vraag die vaak gesteld wordt, is: hoeveel mensen heb ik nodig voor een studie? Waarom wil men dit weten? Er zijn nadelen als er maar heel weinig mensen gebruikt worden, want dan zijn de uitkomsten onnauwkeurig. Er kunnen dan geen uitspraken gedaan worden met zekerheid. Men is dan niet in staat om verschillen te detecteren en dit noemt men ook wel een onderzoek zonder power. Wat is het nadeel van te veel mensen? Dit kost te veel tijd, geld en energie. Ook is het niet medisch-ethisch verantwoord om meer mensen te gebruiken, dan dat nodig is. Het is te belastend voor mensen.
De grootte van de steekproef hangt af van een aantal factoren:
Haalbaarheid:
Als er onderzoek wordt gedaan naar een bepaalde ziekte, hangt het af van de populatie met die ziekte.
Hoeveel van deze patiënten met de ziekte willen er meedoen?
Tijd
Geld – een subsidie kan bijvoorbeeld op zijn.
Statistische argumenten:
Hoe groot effect kan ontdekt worden met dit aantal patiënten?
De meeste studies die uitgevoerd worden zijn rechttoe, rechtaan: een nieuw middel en een oud middel worden met elkaar vergeleken. Hoe gaat men hier de steekproef grootte berekenen? Er zijn een aantal dingen die men hiervoor moet weten:
Men moet weten wat de primaire uitkomst van de trial is.
Is de uitkomst numeriek (gemiddeldes vergelijken en wat is de standaarddeviatie) of binair (ja/nee, proporties vergelijken)?
Hoe groot effect wil je detecteren (als het verschil bestaat)?
Wat is waarschijnlijk? Wil je 80% zekerheid of 90%? Of….? 100% zekerheid is in feite onmogelijk door toeval.
Voorbeeld: de werkzaamheid van gabapentin in migraine profylaxe. Er wordt een RCT gedaan op migraine met gabapentin (nieuw medicijn) en een placebo. De belangrijkste uitkomst is de frequentie van hoofdpijn aanvallen in vier weken. De frequentie van hoofdpijn bij dit soort patiënten heeft een standaarddeviatie van 3,5 aanvallen per maand. Een verschil van twee aanvallen per maand is relevant.
Nu gaat men de hypothese testen. De nulhypothese is dat gabapentin niet werkt; er is geen verschil in de frequentie hoofdpijn aanvallen tussen de twee behandelingen. H1: er is een verschil. Als de nulhypothese waar is, dan wordt er een verschil van bijna 0 verwacht. Wat dichtbij en niet dichtbij 0 is, hangt af van de standaardfout van het geschatte verschil.
Stel dat er twee groepen zijn van 30 patiënten en de nulhypothese is waar. Er is dan een grafiek met een normale verdeling met een top bij 0 en een paar uitschieters naar 3. Er wordt dan gekeken waar 95% van de mensen tussen valt en als er een dergelijk verschil wordt gevonden dan wordt de nulhypothese niet verworpen. Als het verschil in de extreme 5% valt, dan wordt de nulhypothese wel verworpen. Met behulp van een grafiek met de verspreiding van de verschillen kan de power worden berekend. Stel dat H1 waar is voor een verschil van 2 aanvallen per maand. Dan krijg je weer eenzelfde verspreiding maar dan met als gemiddelde 2. De 2 grafieken zullen elkaar overlappen. Je hebt in dit geval 60% kans dat je een significant verschil vindt. De power is hier 60%. Dit is bij twee groepen van 30. Bij twee groepen van 40 mensen, dan is de power 72%. Zo kan men doorgaan met het vergroten van de onderzoeksgroep. Bij twee groepen van 50 is er 81% power en bij twee groepen van 70 is er een power van 92%.
Dus: men gaat fluctueren en per steekproef grootte wordt er gekeken wat de power is. Er wordt gevarieerd tot een power waar men tevreden mee is. Bij het vergroten van de groep zal de standaarddeviatie niet veranderen, maar de standaardfout zal kleiner worden (die zegt hoe goed het gemiddelde geschat is).
Er is ook een formule voor die het aantal patiënten geeft dat nodig is per groep:
N=2 (zα/2 + zβ)2 s2/d2.
N is het aantal mensen;
D is het verschil van interest tussen de gemiddeldes van de groepen;
S is de standaarddeviatie van de uitkomst variabele;
α is het significantie niveau (meestal 0,05);
β is de type 2 fout (1-power), vaak =0,20 of =0,10;
Zα en zβ zijn waardes die in de normale verdeling opgezocht kunnen worden. Als α=0,05, dan is zα 1,96 (de waarde waarin 95% valt) en bij zβ wordt één kant uitgekeken en is hetzelfde maar dan voor de type 2 fout. Bij β=0,80 dan zβ=0,84.
Ons voorbeeld komt uit op 48 patiënten nodig per groep. d=2; s=3,5; α=0,05, power is 80% en dus β=0,20, dan n= 48. Als de power 90% is en β=0,10 (dan zβ=1,2) dan zijn er 64 patiënten per groep nodig.
Als de uitkomst binair is (ja/nee):
P1 = de waarschijnlijkheid van succes in groep 1;
P2 = de waarschijnlijkheid van succes in groep 2 (onder H1);
Aantal patiënten nodig per groep:
N=2 (zα/2 + zβ)2 (1-)/d2 met =(p1+p2)/2 en d=p1-p2.
Na het doen van een calculatie wordt er vaak gevonden dat de steekproef te groot zou moeten zijn. Om de steekproef grootte te verkleinen, kan men een aantal dingen doen. Men kan het relevante verschil kleiner maken, α groter maken, de power verkleinen en het verschil (d) vergroten. Het verkleinen van de power kan wel, maar dit wordt niet altijd geaccepteerd. Het verhogen van α is ongewoon om te doen. Ook kan de SD kleiner gemaakt worden, door een nauwkeurige maat te meten. Dit kan door bijvoorbeeld het BMI te gebruiken in plaats van overgewicht ja/nee.
Voorbeeld: 40 kinderen met longfunctie metingen (FEV-1, in liter). Gemiddelde FEV1 = 3,16 liter en de standaarddeviatie = 0,41 liter. Ongeveer 95% van de observaties ligt 2SD van het gemiddelde af. Dus tussen 3,16-2x0,41=2,34 en 3,16+2x0,41=3,84 liter. Er zijn kinderen van 2 tot 12 jaar in de studie. Kinderen van 12 jaar hebben een grotere longinhoud dan kinderen van 2 jaar. Het is dus beter om per leeftijdscategorie een aparte longinhoud te berekenen. Dus men moet de gemiddelde longinhoud berekenen als functie van de leeftijd. Hier komt een formule uit, namelijk: FEV1 = 2,281+0,119xleeftijd. Een jaar ouder geeft een gemiddelde verhoging van 0,119 liter longinhoud.
Bij lineaire regressie berekent een regressie lijn de gemiddelde waarde van Y voor een waarde van X. Y is de afhankelijke variabele, de uitkomst of de reactie variabele. X is de onafhankelijke variabele, de covariant, de risicofactor, de predictor of de voorspellende variabele. Het model ziet er als volgt uit: Y = α+βx + e met e ~ N(0,σ2). α is de constante en β is de richtingscoëfficiënt. σ toont aan hoeveel observaties variëren rondom de regressie lijn (SD). Als X één eenheid toeneemt, dan zal het gemiddelde van Y verhogen met β.
De regressie lijn kan geschat worden met behulp van SPSS. De lijn Y = α+βx is de onbekende echte regressie lijn in de populatie. Er worden dan waardes voor α en β gekozen, zodat de punten zo dicht mogelijk bij de lijn liggen. Voor alle waardes wordt de afstand tot de lijn bepaald en dan wordt die lijn genomen, waarbij de som van alle kwadratische afstanden tussen observaties en regressielijn zo klein mogelijk is. Dit is de kleinste kwadraten methode. Voor elk punt van alle personen wordt de afstand bepaald .
De schattingen van α en β zijn niet exact. Er worden hier standaardfouten (se) gemaakt. In ons voorbeeld is het gebaseerd op 40 kinderen. Hoe onnauwkeurig de schatting is, wordt bepaald door de standaardfout van α en β. Dit wordt gebruikt om de betrouwbaarheidsintervallen (c.i.) voor de echte onbekende α en β te maken. Het 95% c.i. voor β ligt bij (b-2se(b), b+2se(b)). Om dit heel netjes te doen, neemt men niet 2, maar neemt men t0,5/2 in de t-tabel met n-2 graden van vrijheid. Dit wordt gedaan door SPSS. Een voorbeeld voor het c.i. is b=0,119 en se(b)=0,011. Hierbij is c.i. (0.097, 0.141). Deze populatiewaardes passen heel goed bij de data. De echte, onbekende richtingscoëfficiënt in de populatie ligt 95% zeker in dit c.i. De waarde van 0 (geen associatie) tussen leeftijd en FEV is heel onwaarschijnlijk want deze ligt niet in het c.i.
Als er een lineaire relatie is tussen X en Y, dan wordt er een toets gedaan. H0 is dat er geen relatie is, dus β=0. H1 zegt β≠0 en dan is er wel een relatie. Als statistische test gebruikt men t=b/se(b). Verwerp H0 als |t| heel groot is of bereken de p-waarde (de waarschijnlijkheid om |t| of extremer te observeren als H0 waar is). H0 wordt ook verworpen als de p-waarde klein is.
Er kan ook een c.i. gemaakt worden voor de gemiddelde Y. Het 95% c.i. voor gemiddelde Y=a+bx voor een gegeven waarde van x is: (a+bx-2se(a+bx), a+bx+se(a+bx)). Se(a+bx) kan SPSS berekenen. De echte regressie lijn ligt tussen deze twee grenzen.
De regressie lijn kan gebruikt worden om waardes te voorspellen. Men kan bijvoorbeeld de verwachte FEV-1 van een kind van 6 jaar berekenen door de formule van de regressie lijn in te vullen. Er zijn twee bronnen van variatie: onnauwkeurigheid in het de geschatte regressie lijn: se(a+bx); de spreiding rond de regressie lijn σ. Wanneer dit gecombineerd wordt, geeft dit het 95% referentie of voorspellingsinterval voor een nieuwe observatie. Dit is het interval waartussen 95% van de waardes van de populaties in valt.
De X kan ook categorisch zijn. Stel dat X astma behandeling indiceert, dan is X=0 geen behandeling en X=1 wel behandeling. Kinderen die wel behandeld zijn, die hebben iets meer longinhoud. De gegevens worden in een regressie model gestopt. Hieruit komen weer een constante en een richtingscoëfficiënt. In dit geval is de richtingscoëfficiënt het verschil in longfunctie tussen kinderen die wel en niet behandeld zijn. Wat er in feite gedaan wordt, is het vergelijken van het gemiddelde van de behandelde en de niet behandelde kinderen. Dit is equivalent aan een ongepaarde t-toets. Bij het maken van een grafiek van het 95% voorspel (referentie) interval is een SD nodig.
Men kan ook meerdere X’en tegelijk bestuderen. Dus bijvoorbeeld: hoe varieert de gemiddelde Y als functie van X1, X2,…., Xp? Kan ik Y voorspellen als X1, X2, …., Xp bekend zijn? Wat is de invloed van X1 op Y, gecorrigeerd voor X2,…,XP? Welke combinatie van X’en is gerelateerd aan Y?
Stel: X2=leeftijd, XP=geslacht en X1=wel of niet behandeld. In de tabel die SPSS van de gegevens maakt, zijn er meerdere dingen te zien, namelijk: een constante en meerdere richtingscoëfficiënten (rico). De gemiddelde Y-waarde = constante + rico x leeftijd + rico x lengte. De uitkomst is dus afhankelijk van twee X-waarden. De rico van leeftijd is hier 0,058 en van lengte 0,008. De rico van leeftijd is hier heel anders dan in het vorige voorbeeld. Dit komt doordat deze nu gecorrigeerd is voor de lengte. Het gaat hier om een multipele lineaire regressie. Het model ziet er als volgt uit: Y = β0 + β1X1 + β2X2 + e, met e ~ N(0,σ2). De geschatte regressie vergelijking is Y = b0 +b1X1 + b2X2. Wat gebeurt er bij dit voorbeeld als X1 met één eenheid stijgt? Dan zal Y stijgen met b1. De interpretatie van b1 is de hoeveelheid die het gemiddelde van Y zal stijgen als X1 één eenheid verhoogt en alle andere X’en constant gehouden worden. Na deze correctie voor lengte is zou de relatie tussen longinhoud en leeftijd net niet meer significant (p=0,058). Als iets niet significant is, betekent dit niet dat er geen effect is. Het betekent dus niet dat de leeftijd geen invloed heeft op de longfunctie, maar het gaat er om dat een dergelijke waarde ook voor zou kunnen komen als er geen effect zou zijn (toeval).
In de output van SPSS zijn nog meer dingen te zijn. R is bijvoorbeeld de correlatie tussen de voorspelde FEV en de geobserveerde FEV. Het gaat hier om R2. Hoe dichter deze bij de 1 ligt, hoe meer samenhang er is. Dan is het ook een betere voorspeller. Ook ziet men de standaardfout van het geschatte. Dit is de geschatte σ, of de standaarddeviatie rond de regressie vergelijking. Hiermee kan men de referentie intervallen maken.
Bij ons voorbeeld zag men dat de mensen die behandeld waren, een grotere longfunctie hadden. Toen dit werd gecorrigeerd voor de leeftijd, werd het effect van de behandeling negatief. Hier is er sprake van confounding: een verstoring. Het lijkt dan alsof de behandeling effect heeft, maar dit komt waarschijnlijk door de leeftijd. De reactie van het effect verandert. Leeftijd is in dit geval de confounder. Jonge kinderen hebben een lagere FEV-1 en ze worden minder vaak behandeld dan oudere kinderen.
Er zijn verschillende types regressie modellen voor verschillende types van uitkomst:
Type uitkomst | Type regressie model |
Numeriek | Lineair of niet lineaire regressie |
Binair (0-1, succes/falen) | Logistieke regressie |
Overlevingsdata | Proportioneel hazard model (Cox regressie) |
Waarom gebruikt men lineaire regressie?
Om te voorspellen – wat is de gemiddelde FEV voor kinderen van 7 jaar, 1,30 m en zonder medicatie gebruik?
Om te corrigeren voor confounders – wat is het effect van behandeling op FEV, na aanpassing voor de leeftijd?
In RCT om de precisie te verhogen – aanpassing voor de variabiliteit van belangrijke risico variabelen.
Er zijn drie criteria voor een confounder, namelijk:
Een confounder is geassocieerd met de uitkomst.
Een confounder is geassocieerd met de expositie.
Een confounder mag niet in het causale pad zitten.
Stel dat men kijkt naar het risico van het hebben van gips op trombose. Er worden dan mensen met gips en mensen zonder gips gevolgd, waarna men onderzoekt wie er wel en niet veneuze trombose kregen. In de studiepopulatie is er 80% pil gebruik. Van de 1000 mensen met gips krijgen er 20 trombose en van de 1000 mensen zonder gips 10 mensen. Het relatieve risico (RR) is dan (20/1000)/(10/1000)=2. In de populatie was er dus 80% pil gebruik en er is hier geen associatie tussen pilgebruik en heb hebben van gips. Nu kan men er van uitgaan dat er in de groep mensen met gips 80% pilgebruik is en in de groep mensen zonder gips ook. In een andere populatie zijn er weer 1000 mensen met gips en 1000 mensen zonder gips. Hier is het pilgebruik 50%. Van alle mensen met gips krijgen 12 mensen trombose en van de mensen zonder gips 6. Het relatieve risico is hier dan ook 2 en er is weer geen associatie tussen gips en pilgebruik, waardoor er in beide groepen 50% pilgebruik is. Pilgebruik is hier dus geen confounder en het RR klopt in beide populaties. Wel moet men rekening houden met de karakteristieken van de populatie, want het absolute risico op veneuze trombose is in beide populaties anders. Dit kan veroorzaakt worden door minder pilgebruik in de tweede casus. Het RR hoeft niet gecorrigeerd te worden voor pilgebruik.
Stel nu dat er wel een associatie is tussen pilgebruik en het hebben van gips, dan krijgen vrouwen die de pil gebruiken vaker gips. Er is dan een hoger percentage pilgebruik in de groep mensen met gips. Er is dan een overschatting van het RR, doordat men niet alleen meer naar het gips kijkt maar ook naar het verschil in pilgebruik. De contrasten van de absolute risico’s zijn dan anders, want er is in de populatie een ander pilgebruik. Dit kan gecorrigeerd worden door bijvoorbeeld stratificatie, want dan wordt het pilgebruik er als het ware tussenuit gehaald. Alleen als er confounding is, dan is er een effect op het RR.
Een andere risicofactor heeft geen effect op het RR en dit is in feite wat men telkens doet bij randomiseren. Dan wordt de blootstelling willekeurig toebedeeld. In tabel 1 (meestal zonder p-waardes) wordt er rekening mee gehouden, want er kan bijvoorbeeld een associatie doorbroken worden. Stel dat leeftijd een risicofactor is bij gabapentin gebruik, dan kunnen er twee groepen gemaakt worden met dezelfde gemiddelde leeftijd.
Bij de relatie tussen pilgebruik en veneuze trombose is factor V Leiden geen confounder, maar een risicofactor. Als iemand de pil voorschrijft, dan zal er niet worden gescreend op factor V Leiden. Als dit voorbeeld wordt omgedraaid, kunnen we kijken naar het risico op een veneuze trombose voor mensen met een factor V Leiden mutatie. Is pilgebruik hierbij een confounder? Er is geen associatie tussen pilgebruik en een factor V Leiden mutatie, dus het is geen confounder. Dit is het principe van Mendeliaanse randomisatie: als er genetische risicofactoren bestudeerd worden, dan is er bijna nooit een probleem van confounding. Het is nooit zo dat er een pijl is van een bepaalde expositie naar een genetische factor. Natuurlijk zijn hier wel uitzonderingen op.
Bij alle studie designs kan er confounding zijn, want de randomisatie kan bijvoorbeeld fout gaan, waardoor er factoren storend werken op de relatie tussen blootstelling en uitkomst. Vooral bij observationele studies is er sprake van confounding. Er wordt dan gekeken naar factoren die kunnen veranderen over de tijd, zoals roken, alcoholgebruik en bloedwaardes. Het probleem dat men dan krijgt, is dat er niet slechts confounding is maar ook reverse causality. Dit laatste is dat er een blootstelling is die men ziet en het lijkt dat deze blootstelling het risico op ziekte verhoogt, maar wat men eigenlijk meet is een soort voorstadium van een ziekte of het is zo dat de ziekte de blootstelling beïnvloedt die men aan het bekijken is (het is dan een gevolg). Een voorbeeld is als men kijkt naar ontstekingsmarkers (IL) in het bloed en het risico op veneuze trombose. Men zal dan een associatie zien, want IL is verhoogd bij een veneuze trombose. Wat men eigenlijk doet is dat men kijkt naar een voorstadium van veneuze trombose, wat een verhoging van IL veroorzaakt. IL is dan geen risicofactor van de uitkomst, maar een gevolg. Een oplossing hiervoor is een Mendeliaanse randomisatie analyse. Dit probeert het probleem van confounding op te lossen en reverse causality wordt helemaal opgelost.
De belangrijkste wet bij Mendeliaanse randomisatie is de wet van onafhankelijke verscheidenheid. Welk allel iemand van welke ouder krijgt, wordt random verdeeld over de nakomelingen. Dus de kans op het hebben/krijgen van een bepaald allel van een bepaalde mutatie wordt random verdeeld. Er is in feite een soort natuurlijke randomisatie van genotypen. Eigenlijk is er een soort trial gemaakt als er naar genotypen wordt gekeken, omdat men random wordt ingedeeld naar expositie.
Bij Mendeliaanse randomisatie gebruikt men dus een genotype om een bepaald fenotype te kunnen beschrijven. Stel dat men geïnteresseerd is in cholesterol niveaus, dan gaat men niet de niveaus zelf meten, omdat er dan heel veel confounding is. Wat men gaat doen is een genotype meten dat verklarend is voor de blootstelling waarin men geïnteresseerd is. Als er bijvoorbeeld een allel is, waardoor men, als iemand drager is, een hoog niveau van stollingsfactoren heeft, dan wordt dat genotype genomen als expositie, als proxy voor die stollingsfactoren. Dan is er dus natuurlijke randomisatie van die genen. Er is dan geen hoog niveau stollingsfactoren door roken of ouderdom o.i.d. Het is random toebedeeld door de ouders. Genotype is hier een instrument om het fenotype te beschrijven. Dit gebruikt men en het voorkomt confounding en het verlaagt de kans op reverse causality. Wanneer men naar een genetische variant kijkt, die intrinsiek zorgt dat iemand een hoger niveau stollingsfactoren heeft, dan kijkt men niet naar kortdurende fluctuaties door bijvoorbeeld medicijnen. Men kijkt dan naar life-time exposure. Hiermee wordt het effect van reverse causality weggehaald. Het kan ook geschreven worden als een RCT. De random distributie van de allelen is analoog aan de random toebedeling van behandeling of placebo aan patiënten in een RCT.
Bij een Mendeliaanse randomisatie wordt men dus random ingedeeld naar risico allel, en daarmee worden confounders gelijk verdeeld. Dit komt doordat er een natuurlijk randomisatie proces is. Dan is er dus in feite een trial.
Een voorbeeld: men heeft gezien dat mensen met colonkanker een lager LDL cholesterol hadden dan mensen zonder colonkanker. Dit is gek, want een laag LDL cholesterol is dan misschien een risicofactor voor het krijgen van colonkanker. Men wil hierop het antwoord weten. Statines zijn medicijnen die het LDL cholesterol omlaag krijgen. Er wordt uitgezocht of er een causale associatie is, of dat er sprake is van confounding. De associatie tussen een laag LDL cholesterol en kanker kan verklaard worden door allerlei dingen. Het kan echt een oorzakelijk verband zijn, maar er kan ook sprake zijn van allerlei confounders (geslacht, leeftijd, BMI). Ook kan er sprake zijn van reverse causality. Een voorstadium van kanker kan LDL niveaus beïnvloeden en op dat moment is er nog geen kanker gediagnosticeerd, maar er is al wel effect op het LDL cholesterol.
In de studie wordt er mendeliaanse randomisatie gedaan en er wordt een genetische variant (instrument) gezocht wat die LDL cholesterol niveaus beïnvloedt. Er wordt gekeken naar een associatie tussen het instrument en de uitkomst en er is geen last meer van confounding. Alle mogelijke confounders beïnvloeden namelijk niet of iemand wel of geen genetische allel heeft. Een SNP is een single nucleotide polymorfisme. Dit is een variatie van één nucleotide lang en heel vaak is er niet bekend wat dit is, maar heel veel mensen hebben dit. 99% van de genetische variaties zijn SNP’s en meestal zijn ze onschuldig. Ze geven dus geen voor- of nadeel op een bepaald iets Sommige SNP’s hebben wel effect op bepaalde fenotypes, waarin men geïnteresseerd kan zijn bij een onderzoek. Bij de relatie tussen LDL cholesterol en kanker kan het zijn dat er allerlei confounders zijn. Binnen de groepen met LDL cholesterol (hoog of laag) zijn er veel factoren verschillend, zoals hypertensie. Mensen met een laag LDL cholesterol hebben een lagere bloeddruk, dus dit zou een confounder kunnen zijn. Er is een associatie van confounders met LDL en het zijn risicofactoren voor colonkanker.
Hiervoor moet men dus corrigeren. Dit kan op verschillende manieren: in het design of tijdens de analyse. In studie design kan er bijvoorbeeld randomisatie (bekende en onbekende confounders), restrictie (bekende confounders) of matching (bekende confounders) gedaan worden. Bij de analyse kan met stratificatie of een multivariaat analyse doen. Dit is beide voor bekende confounders. Dit werd gedaan en er moest randomisatie gedaan worden, zodat de onbekende confounders (hopelijk) gelijk zouden verdelen over de groepen. Er werd toen een genetische variatie gebonden: APOE gen. Als dit als instrument wordt genomen, dan kan de associatie bekeken worden tussen gen en uitkomst, zonder confounders.
Mendeliaanse randomisatie heeft voordelen:
Geeft correctie voor bekende en onbekende confounders.
Reverse causality is onwaarschijnlijk.
Geschatte ‘life-time differ
Bij veel onderzoeken wordt survival data (overlevingsdata) of time to event data (tijd tot gebeurtenis data) gebruikt. Enkele voorbeelden zijn:
– Dieronderzoek waarbij het beginpunt blootstelling aan een carcinogeen is en het eindpunt de ontwikkeling van een tumor.
– Kankeronderzoek waarbij het startpunt is bij het stellen van de diagnose en waarbij het eindpunt overlijden is.
– Een eindpunt kan ook iets positiefs zijn, zoals bij vruchtbaarheidsonderzoek. Het startpunt is dan het begin van de behandeling (bijvoorbeeld IVF) en het eindpunt is zwangerschap.
– Transplantatie onderzoek waarbij het beginpunt de transplantatie is en het eindpunt afstoting van het transplantaat.
– Bij een trial met twee anticoagulanten is het beginpunt het tijdstip van randomisatie en het eindpunt overlijden/bloeding/trombose.
Hierbij zijn enkele vragen, zoals: hoe zijn de overlevingstijden verdeeld? Is er een verschil in verwachte overleving als iemand op een andere manier behandeld wordt? Wat is de snelste manier om zwanger te worden? Welke factoren voorspellen de 5-jaars overleving?
Hoe worden overlevingskansen vergeleken? Hoe worden overlevingstijden vergeleken? Dit laatste gebeurt met een T-toets of een Chi square test. Hierbij zijn een aantal problemen, want niet alle patiënten overlijden, niet alle patiënten hebben dezelfde follow-up tijd en soms raken patiënten ‘kwijt’ (door verhuizing of migratie). We nemen een voorbeeld: er worden 6 patiënten gevolgd en de follow-up is 24 maanden. Het eindpunt bij deze studie is overlijden. Patiënt 1 overlijdt na 14 maanden. Patiënt 2 is aan het einde van het onderzoek nog in leven. Persoon 3 is kwijt geraakt. Patiënt 4 is na 13 maanden overleden. Patiënt 15 wordt nog gevolgd. Patiënt 16 was aan het einde nog in leven. Dit maakt het gecompliceerd om de gegevens te analyseren, want men weet niet van iedereen wat nodig is.
Stel dat er in een dialyse studie 653 mensen peritoneale dialyse krijgen. 207 van deze patiënten overlijden en 446 patiënten zijn nog in leven. De patiënten zijn voor het laatst gezien tussen de 0,8 en 5 jaar na de start van de dialyse. De 446 niet overleden personen mogen niet uit de studie verwijderd worden. Dit zou ook niet slim zijn, want dat deze personen na 5 jaar nog leven, is juist heel informatief.
Men wil een overlevingsfunctie S(t) schatten. S(t) is de kans dat iemand op tijdstip t nog in leven is. Het schatten van de overlevingswaarschijnlijkheid kan via de Kaplan-Meier methode. Hier wordt informatie van elke patiënt gebruikt tot dood/censurering. Een voorbeeld van 10 personen: 3, 4, 7+, 9, 10, 11+, 12, 20, 20, 25+. Een + betekent dat deze persoon gecensureerd is. Verticaal worden alle tijdstippen neergezet waarop er iets gebeurt. De tabel is hieronder te vinden.
Tijd | Aantal met risico | Aantal overledenen | Proportie overledenen | Proportie overlevenden | Overlevings-waarschijnlijkheid |
0 | 10 |
|
|
| 1 |
3 | 10 | 1 | 1/10 | 9/10 | 9/10=0,9 |
4 | 9 | 1 | 1/9 | 8/9 | 0,9x8/9=0,8 |
7 | 8 | 0 | 0 | 1 | 0,8 |
9 | 7 | 1 | 1/7 | 6/7 | 0,8x6/7=0,69 |
10 | 6 | 1 | 1/6 | 5/6 | 0,69x5/6=0,57 |
11 | 5 | 0 |
| 1 | 0,57 |
12 | 4 | 1 | ¼ | ¾ | 0,57x3/4=0,43 |
20 | 3 | 2 | 2/3 | 1/3 | 0,14 |
25 | 1 |
|
|
| 0,14 |
Van deze tabel kan een Kaplan-Meier curve gemaakt worden. Op de x-as staat de tijd en op de y-as de overlevingswaarschijnlijkheid. In de powerpoint is deze weergegeven. Er kunnen standaardfouten van de schattingen door SPSS berekend worden. Hiermee kan een 95% betrouwbaarheidsinterval gemaakt worden van de overlevingswaarschijnlijk: (S(t)-1,96xse, S(t)+1,96xse), met S(t) is de overlevingswaarschijnlijkheid op tijdstip t.
De mediane overlevingstijd is het tijdstip waarop 50% van de patiënten nog in leven is. Kaplan-Meier is nauwkeurig, als de overlevingswaarschijnlijkheden hetzelfde zijn voor personen die vroeg of laat in de studie gerekruteerd zijn, als de gecensureerde patiënten op elk tijdstip dezelfde overlevingsprognose hebben als de patiënten in de studie (onafhankelijke censurering) en als het tijdstip van de gebeurtenissen exact bekend zijn.
Met behulp van de log rank test kunnen overlevingscurves vergeleken worden. De nulhypothese zegt dat de twee curves gelijk zijn en de H1 zegt dat de curves verschillend zijn. De geobserveerde curves worden vergeleken met dat wat men zou verwachten als de nulhypothese waar is. Een maat hiervoor is de statistische toets X2. Deze berekend de afstanden van de punten tot de lijn in het kwadraat. Er wordt kansrekening gebruikt om te bedenken wat er met X2 zou gebeuren als de nulhypothese waar is. Dit heeft een chi-kwadraat verdeling met één vrijheidsgraad, onder H0. Dit wordt gebruikt om de p-waarde te berekenen. Als X2 groot is en de bijbehorende p-waarde klein, dan kan de nulhypothese verworpen worden, want er is dan een significant verschil. Men moet niet slechts naar de p-waardes kijken, want bij grote groepen is deze bijna altijd significant. Men moet ook kijken naar de effectmaten en de precisie. Bij overlevingsdata is de effectmaat de hazard ratio.
De hazard functie is de waarschijnlijkheid dat een individu, levend net voor tijdstip t, overlijdt op tijdstip t. Een voorbeeld is dat S(12) = 0,40 en S(13) = 0,20. De Hazard is dan h(12) = ((S(12)-S(13))/S(12) = 0,5. Een hazard functie kan omgezet worden in een overlevingsfunctie en andersom. De algemene definitie van de hazard functie is: h(t) = lim (((S(t)-S(t+Δ))/ Δ)/ S(t) = (-S(t)’)/S(t).
De hazard ratio kan gebruikt worden om een verschil in overleving te meten. We nemen als voorbeeld het onderzoek met hemodialyse patiënten en peritoneale dialyse patiënten. Hemodialyse heeft hazard functie h0(t) en peritoneale dialyse h1(t). Men neemt aan dat h1(t)/h0(t) constant is. Deze verhouding is de hazard ratio. Dus HR = h1(t) / h0(t). Er is ook een Cox proportioneel hazard model met h1(t)=h0(t) x HR. Dit is in feite de vorige formule, maar dan anders geschreven. Uit de HR kunnen een aantal getallen komen:
HR > 1 – dan is de overleving in de h1(t) groep lager dan in de h0(t) groep.
HR < 1 – dan is de overleving in de h1(t) groep hoger dan in de h0(t) groep.
HR = 1 – dan is de overleving in beide groepen gelijk.
Bij ons voorbeeld is HR = 0,58 (peritoneaal/hemodialyse). Dit betekent dat de overleving in de groep met peritoneale dialyse beter is. Het 95% betrouwbaarheidsinterval is hierbij (0.48, 0.66) en dus valt de 1 hier niet in. Hierdoor is het statistisch significant. Nu is de vraag: is deze vergelijking (peritoneaal tegen hemodialyse) wel eerlijk? In de groep met hemodialyse patiënten is de gemiddelde leeftijd hoger. Hiervoor is een oplossing, want men kan ook gecorrigeerde hazard ratio’s berekenen, wat in dit geval nodig is vanwege confounders. Dit kan gedaan worden met behulp van SPSS.
Het Cox model geeft proportionele hazards. Hierbij geldt de formule h1(t) = h0(t) x HR. Op de logaritmische schaal wordt dit: ln(h1(t)) = ln(h0(t)) + ln(HR). Ln is het natuurlijke logaritme. De formule kan ook geschreven worden als ln(h1(t)) = ln(h0(t)) + β1X1 + … + βpXp. β1 is de verhoging in ln-hazard wanneer X1 met één eenheid omhoog gaat en X2, …, Xp hetzelfde blijven. De hazard ratio wordt exp(β1) keer groter.
Hazards zijn niet altijd proportioneel, dus de hazards over de tijd zijn niet altijd proportioneel. De tumorgrootte is bijvoorbeeld heel prognostisch voor de eerste jaren van kanker overleving, maar later minder. Bij een operatie in een gastrische kanker trial wordt gelimiteerde lymfeknoop dissectie (D1) vergeleken met uitgebreide lymfeknoop dissectie (D2). De overleving in de eerste twee jaar was beter voor D1, maar op de langere termijn was de overleving van D2 beter. Bij D2 zijn de tumorcellen namelijk beter weggehaald. Een oplossing is het berekenen van hazard ratio’s per jaar.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
In deze bundel zijn samenvattingen, oefenmaterialen en aantekeningen samengevoegd voor het lijnonderwijs Academische en Wetenschappelijke Vorming (AWV) voor de opleiding Geneeskunde, aan de Universiteit van Leiden
Heb je zelf samenvattingen en oefenmaterialen? Deel ze met je medestudenten...
Algemeen medisch studiemateriaal omtrent het leren dokteren, opdoen van academische vaardigheden, beroepscompetenties, etc.
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
2379 |
Add new contribution