• ma. jan 12th, 2026

Sinds ik mij in medische en epidemiologische studies begon te verdiepen, slechts gewapend met mijn communicatie-analytische achtergrond en een basis-uitrusting aan argumentatietheorie, statistiek, logica, wetenschapsfilosofie e.d., heb ik mij vaak verbaasd over de wetenschappelijke denkwijzen die ik tegenkwam in studies. Ik dacht daar in eerste instantie iets van op te kunnen steken maar ik stuitte te vaak op Interne inconsistenties, impliciete aannames, foute conclusies; eigenlijk vooral argumentatie-theoretische zaken. Als je daar een antenne voor hebt ontwikkeld, ervaar je dat als contra-intuïtief: checkwaardig dus.

Ik zag wetenschappelijk jargon gebruikt worden als shortcut om logische denkprocessen te omzeilen. Vooral in domeinen waar vele miljarden mee zijn gemoeid, worden terechte kritische vragen afgestopt met mantra’s waarvan iedereen is vergeten waar ze ook alweer vandaan kwamen en waarvoor ze waren bedoeld. Er lijkt slordig te worden gedacht, men leunt op elkaars bevestiging als dat zo uitkomt (zonder conflicterende data er ook eens bij te pakken), men verschuilt zich achter ingewikkelde multifactoriële correcties terwijl ruwe data op compleet tegenovergestelde conclusies lijken te wijzen etc. etc. Het bleek al snel niet alleen mijn onkunde. Dat werd mij ook duidelijk als ik mijn twijfels -soms zelfs ontsteltenis- uitte aan specialisten op de desbetreffende vakgebieden.

Dan is het bemoedigend als een erkend wetenschappelijk kopstuk het al veel eerder gezien blijkt te hebben. Zo idioot zijn die twijfels dus niet.

Kenneth J. Rothman zette het al in 2014 op een rijtje. Als de wetenschapsaanbiddende dogmatici en wetenschapspopulariseerders dat nou eens ter harte namen… maar ik vrees dat Max Planck toch gelijk krijgt: dat gaat zeker nog een generatie duren. En dan was hij nog optimistisch.

Tegelijk zie ik ook wel waarom deze benadering problemen oplevert: alleen mensen die scherp na kunnen denken, zullen op die manier nog wetenschap kunnen beoefenen. Onze wetenschappelijke wereld, zeker de grote instituten, zijn deels gevuld met volgzame middenmoters, en die gaan niet zomaar weg. Die schoppen het zelfs verder dan onderzoekers die andere prioriteiten stellen dan teamplayer zijn, de reputatie hooghouden of fondsen binnenharken met beleidsbevestigende voorstellen. Ga maar na waar een instituut meer aan heeft. Ondergraving of onderbouwing van de opgebouwde consensus? Voortschrijdende wetenschap kan gemakkelijk als institutie-bedreigend worden beschouwd. En hoe fundamenteler, hoe anti-institutioneler.

Met zo’n strengere kwaliteitsnorm vallen ook aanhangende roeptoeters, schermend met vakjargon, consensus, bevriende experts en Legacy Science™-adepten buiten de boot. Je moet namelijk wel zelf je oordeel kunnen vellen, geïnformeerd kunnen (en durven) schatten, eigen zekerheden in twijfel trekken, abstraheren etc. en dat is niet voor iedereen weggelegd. Dat is dus bepaald niet ‘inclusief’ want brein-discriminatie, dat kan natuurlijk niet. (s) Ook domkoppen moeten mee kunnen doen! Zeker als ze ondervertegenwoordigd zijn in wetenschap, is positieve discriminatie niet meer dan rechtvaardig! Alleen samen maken we een inhaalslag!(/s)

Dit betekent zeker niet dat iedereen die maar wat roept altijd even serieus moet worden genomen. De richtlijnen voor wetenschappelijke integriteit zijn daarvoor een goede leidraad en ook als toetssteen in te zetten. Helaas zijn die richtlijnen wat in onbruik geraakt; onze toonaangevende instituten lappen ze aan hun laars (neem kernrichtlijn ’transparantie’ bijvoorbeeld, die eigenlijk de andere kernrichtlijnen controleerbaar maakt) en behouden toch hun wetenschappelijke status. Die richtlijnen zullen dus t.z.t. wel worden aangepast zodat alles weer klopt…

Zo kunnen ze ook de zes fundamentele fouten blijven maken die Rothman al in 2014 signaleerde, waarbij hij ook verbluffende voorbeelden gaf. Bondig en helder, vandaar de integrale vertaling in de hoop dat zijn betoog weer eens wordt afgestoft.

Over Kenneth J. Rothman

Kenneth J. Rothman is een Amerikaanse epidemioloog die wereldwijd bekendstaat als een van de grondleggers van de moderne epidemiologische methodologie. Hij werd geboren in 1945 en is vooral beroemd om zijn invloedrijke werk over epidemiologische causaliteit, bias (vertekening) en onderzoeksmethoden. Rothman behaalde zijn doctorstitel (Sc.D.) in epidemiologie aan de Harvard School of Public Health.

Houding tegenover mainstream medische dogma’s:
Rothman benadrukt herhaaldelijk dat wetenschap niet verworden mag tot een geloofsstructuur. Hij pleit voor transparantie, methodologische zuiverheid, en een voortdurende kritische houding tegenover institutionele belangen – inclusief farmaceutische invloed in klinisch onderzoek.
In zijn werk komt duidelijk naar voren dat statistische significantie niet gelijkstaat aan wetenschappelijke waarheideen boodschap die vandaag de dag urgenter is dan ooit.

Belangrijk werk:
Hij schreef het standaardwerk “Modern Epidemiology” — oorspronkelijk alleen door hem geschreven, later in samenwerking met Sander Greenland en Timothy Lash. Dit boek wordt beschouwd als de ‘bijbel’ van de empirische epidemiologie.

Wetenschappelijke bijdragen:

  • Hij introduceerde en systematiseerde het concept van confounding en interaction (effect modification).
  • Hij benadrukte het belang van causale diagrammen (voorlopers van DAGs – Directed Acyclic Graphs).
  • Hij wees op de beperkingen van p-waarden en het gevaar van statistische ritualisering in de geneeskunde.
  • Hij was ook kritisch over overmatige afhankelijkheid van “significantiegrenzen” in onderzoek, wat tot misleidende conclusies kan leiden.

Instituten en tijdschriften:
Hij is oprichter van het tijdschrift Epidemiology (gelanceerd in 1990), dat een alternatief wilde bieden voor te conservatieve, institutioneel gecontroleerde medische publicaties.

Hieronder de vertaling van zijn artikelHet originele stuk staat hier https://doi.org/10.1007/s11606-013-2755-z.


Samenvatting

Wetenschappelijke kennis verandert snel, maar de concepten en methoden voor het uitvoeren van onderzoek veranderen langzamer. Om de discussie over achterhaalde denkwijzen met betrekking tot het uitvoeren van onderzoek te stimuleren, som ik zes misvattingen over onderzoek op die nog steeds bestaan, lang nadat hun tekortkomingen duidelijk zijn geworden.

De misvattingen zijn:

  1. Er bestaat een hiërarchie van onderzoeksontwerpen; gerandomiseerde studies bieden de grootste validiteit, gevolgd door cohortstudies, terwijl case-controlstudies het minst betrouwbaar zijn.
  2. Een essentieel element voor een geldige generalisatie is dat de proefpersonen een representatieve steekproef van een doelpopulatie vormen.
  3. Als een term die het product van twee factoren in een regressiemodel aangeeft, statistisch niet significant is, is er geen biologische interactie tussen die factoren.
  4. Bij het categoriseren van een continue variabele is een redelijk schema voor het kiezen van categorische grenswaarden het gebruik van percentielgedefinieerde grenzen, zoals kwartielen of kwintielen van de verdeling.
  5. Men moet altijd P-waarden of betrouwbaarheidsintervallen rapporteren die zijn gecorrigeerd voor meervoudige vergelijkingen.
  6. Significantieonderzoek is nuttig en belangrijk voor de interpretatie van gegevens. Deze misvattingen zijn in tijdschriften, klaslokalen en leerboeken blijven voortbestaan. Ze blijven bestaan omdat ze intellectuele snelkoppelingen zijn die een meer doordachte benadering van onderzoeksproblemen vermijden. Ik hoop dat het onder de aandacht brengen van deze misvattingen de nodige discussies op gang zal brengen om deze achterhaalde ideeën voorgoed te begraven.

Kenneth J. Rothman, DrPH
Research Triangle Institute, Research Triangle Park, NC, VS; Boston University School of Public Health, Boston, MA, VS.

SLEUTELWOORDEN: onderzoeksopzet; gegevensinterpretatie; epidemiologische methoden; representativiteit; evaluatie van interactie; meervoudige vergelijkingen; percentielgrenzen; statistische significantietests.

PMID: 24452418 | PMCID: PMC4061362 | DOI: 10.1007/s11606-013-2755-z
© De auteur(s) 2014. Dit artikel is open access gepubliceerd op Springerlink.com


Er bestaan nog steeds verrassend veel misvattingen over het uitvoeren van onderzoek met proefpersonen. Sommige misvattingen blijven bestaan ondanks het feit dat het tegendeel wordt onderwezen, en andere juist vanwege het feit dat het tegendeel zou moeten worden onderwezen. Om de discussie over deze kwesties op gang te brengen, som ik hier zes hardnekkige misvattingen over onderzoek op en geef ik een beknopte samenvatting van de problemen die elk van deze misvattingen met zich meebrengt.

Misvatting 1. Er bestaat een hiërarchie van onderzoeksontwerpen: gerandomiseerde studies bieden de grootste validiteit, gevolgd door cohortstudies, terwijl case-controlstudies het minst betrouwbaar zijn.

Gerandomiseerde studies worden vaak beschouwd als de ‘gouden standaard’ onder de onderzoekstypes, maar zijn zelfs in theorie niet perfect. Bovendien is de veronderstelling dat de vergelijkende validiteit van onderzoeksresultaten kan worden afgeleid uit het type onderzoek onjuist.

Hoewel sommigen geloven dat bewijs uit een gerandomiseerde studie even overtuigend is als een logisch bewijs, kan geen enkel empirisch onderzoek absolute zekerheid bieden. Als gerandomiseerde studies perfect waren, hoe zouden ze dan uiteenlopende resultaten kunnen opleveren? In feite zijn ze onderhevig aan verschillende fouten1. Uiteraard is er sprake van willekeurige fouten, zoals te verwachten is bij een onderzoek op basis van willekeurige toewijzing. Maar er is ook sprake van systematische fouten, of vertekening. Gerandomiseerde onderzoeken worden bijvoorbeeld meestal geanalyseerd aan de hand van het ‘intent to treat’-principe, waarbij de groepen die aanvankelijk willekeurig zijn toegewezen, worden vergeleken, ongeacht eventuele latere niet-naleving. Niet-naleving leidt tot een onderschatting van het effect van de behandeling. Deze vertekening wordt meestal als aanvaardbaar beschouwd, omdat deze wordt gecompenseerd door de voordelen van willekeurige toewijzing. Onderschatting van effecten is echter niet aanvaardbaar in een veiligheidsonderzoek dat gericht is op het blootleggen van bijwerkingen van de behandeling. Een andere belangrijke bron van vertekening in een gerandomiseerde studie zijn fouten bij de beoordeling van de uitkomst, zoals het te laag tellen van uitkomstgebeurtenissen. Ook als randomisatie aan het begin van de studie zorgt voor een evenwicht tussen de risicofactoren van de groepen, kunnen de studiegroepen door langdurige follow-up steeds meer uit balans raken door differentiële uitval of veranderingen in de verdeling van risicofactoren. Bij langdurige onderzoeken kunnen de voordelen van willekeurige toewijzing daarom na verloop van tijd afnemen.

Kortom, onderzoeken zijn verre van perfect. Bovendien leveren zowel cohort- als case-controlonderzoeken geldige resultaten op wanneer ze goed zijn opgezet en uitgevoerd. Het is daarom onjuist om zonder nadenken meer geldigheid toe te kennen aan een onderzoek op basis van een hiërarchie van onderzoeksopzetten2,3. Zo is het verband tussen het roken van sigaretten en longkanker goed vastgesteld op basis van bevindingen uit cohort- en case-controlstudies. Dit verband is nooit duidelijk aangetoond in een gerandomiseerde studie. Het is niet eenvoudig om mensen willekeurig toe te wijzen aan een groep die rookt of niet rookt, maar toen stoppen met roken werd onderzocht als onderdeel van een veelzijdige interventie in de gerandomiseerde Multiple Risk Factor Intervention Trial4, ontwikkelden degenen die aangespoord werden om te stoppen met roken juist meer longkanker dan degenen die niet werden aangemoedigd om te stoppen. De resultaten van de studie hebben de bevindingen van de vele cohort- en case-controlstudies die zonder randomisatie zijn uitgevoerd, niet tenietgedaan. De discrepantie werd veeleer toegeschreven aan problemen met de studie.

In een ander opvallend voorbeeld wezen de resultaten van grote cohortstudies5,6 erop dat het risico op coronaire hartziekten was afgenomen bij postmenopauzale hormoongebruikers, maar latere resultaten van twee gerandomiseerde onderzoeken wezen op geen verband of een verhoogd risico.7,8  De reactie in de wetenschappelijke gemeenschap en de populaire pers9  was om de resultaten van de cohortstudies in diskrediet te brengen, in de veronderstelling dat ze door de gerandomiseerde studies waren weerlegd. Velen blijven die interpretatie aanhangen, maar in een elegante heranalyse toonden Hernan et al.10  aan dat de onderzoeksgroepen in de cohortstudies en de gerandomiseerde studies verschillend waren en dat de effecten van hormoongebruik na de menopauze sterk varieerden naargelang de leeftijd en de tijd sinds de menopauze. Toen de studies werden beperkt tot nieuwe gebruikers van hormonen, toonden Hernan et al. aan dat verschillen in de verdeling van de leeftijd en de tijd sinds de menopauze alle schijnbare discrepanties konden verklaren. Hoewel het gebruikelijk is om dergelijke discrepanties toe te schrijven aan inherente zwakheden van de niet-experimentele studies, is het simplistisch om de validiteit toe te kennen op basis van een veronderstelde hiërarchie van studietypes.11

Evenzo mogen discrepanties tussen cohortstudies en case-controlstudies niet oppervlakkig worden weggeredeneerd door een verondersteld validiteitsvoordeel van cohortstudies ten opzichte van case-controlstudies. Goed opgezette case-controlstudies zullen dezelfde resultaten opleveren als goed opgezette cohortstudies. Wanneer er conflicten ontstaan, kunnen deze voortkomen uit problemen in een van beide of beide soorten studies. Hoewel case-controlstudies lange tijd werden afgedaan als achterhaalde versies van cohortstudies, waarbij wordt uitgegaan van de ziekte en wordt teruggezocht naar mogelijke oorzaken, beschouwen epidemiologen case-controlstudies tegenwoordig als conceptueel identiek aan cohortstudies, afgezien van een efficiëntiewinst die voortkomt uit het nemen van steekproeven van de noemers in plaats van het uitvoeren van een volledige telling. Door deze efficiëntiewinst kunnen er inderdaad meer middelen worden ingezet voor blootstellingsbeoordeling of gevalvalidatie in case-controlstudies, wat resulteert in minder vertekening dan in overeenkomstige cohortstudies van dezelfde relatie.

Degenen die case-controlstudies beschouwen als achterhaalde versies van cohortstudies, maken soms de verkeerde analogie dat de controles sterk moeten lijken op de gevallen, behalve dat ze de ziekte die het geval definieert niet hebben. In feite is de controlegroep in een case-controlonderzoek bedoeld als een steekproef van de populatie-noemer die aanleiding geeft tot de gevallen, een vervanging voor de volledige noemers die in een cohortonderzoek worden verkregen. De controlegroep moet dus lijken op de gehele onderzoeksgroep, en niet op de gevallen.12,13  Wanneer ze goed zijn opgezet, kunnen case-controlonderzoeken dezelfde uitstekende validiteit bereiken als goed opgezette cohortonderzoeken, terwijl een slecht opgezet onderzoek onbetrouwbaar kan zijn. Het type onderzoek mag niet worden gebruikt als maatstaf voor de validiteit van een onderzoek.

Misvatting 2. Een essentieel element voor het maken van geldige generalisaties op basis van een onderzoek is dat de proefpersonen een representatieve steekproef van een doelpopulatie vormen.

Deze misvatting houdt verband met de opvatting dat wetenschappelijke generalisatie een mechanische extrapolatie van resultaten van een steekproef naar de bronpopulatie inhoudt. Maar dat beschrijft statistische generalisatie; wetenschappelijke generalisatie is iets anders: het is het proces van het opstellen van een correcte uitspraak over de manier waarop de natuur werkt.

Wetenschappelijke generalisatie is het uiteindelijke doel van wetenschappelijk onderzoek, maar een voorwaarde hiervoor is het ontwerpen van een studie met interne validiteit, die wordt versterkt door alle verstorende variabelen constant te houden. Wanneer hebben we ooit gehoord van dieronderzoekers die op zoek zijn naar een statistisch representatieve steekproef van dieren? In plaats daarvan is hun werkwijze bijna het tegenovergestelde van het streven naar representativiteit. Zo geven biologen die muizen bestuderen de voorkeur aan muizen die homogeen zijn wat betreft genen en omgeving, en die alleen verschillen wat betreft de experimenteel gemanipuleerde variabele. In tegenstelling tot de statistische generalisatie van opiniepeilingen of steekproeven, waarbij alleen maar een extrapolatie van de steekproef naar de bronpopulatie nodig is, verloopt wetenschappelijke generalisatie via weloverwogen gissingen, maar alleen vanuit het veilige platform van een geldig onderzoek. Bijgevolg zijn studies sterker als ze de variabiliteit van verstorende factoren beperken, in plaats van representativiteit na te streven. Doll en Hill14  bestudeerden de sterfte onder mannelijke Britse artsen in relatie tot hun rookgewoonten. Hun bevindingen werden als algemeen generaliseerbaar beschouwd, ondanks het feit dat hun onderzoeksgroep niet representatief was voor de algemene populatie van tabaksgebruikers wat betreft geslacht, ras, etniciteit, sociale klasse, nationaliteit en vele andere variabelen.

Wanneer er een legitieme vraag is of een algemeen verband varieert per subgroep van een derde variabele, zoals leeftijd of etnische groep, kan het nodig zijn om mensen op te nemen uit een breed scala aan waarden van die derde variabele, maar zelfs dan is het contraproductief als de onderzoeksgroep representatief is voor de bronpopulatie voor die variabele. Het doel zou in dat geval zijn om proefpersonen op te nemen die gelijkmatig over het bereik zijn verdeeld, of in een verdeling die de algehele efficiëntie van het onderzoek verhoogt. Een steekproef die representatief is voor de bronpopulatie zal suboptimaal zijn.15,16

Misvatting 3. Als een term die het product van twee factoren in een regressiemodel aangeeft, statistisch niet significant is, is er geen biologische interactie tussen die factoren.

De term ‘biologisch’ moet hier in brede zin worden opgevat, zodat het biochemische, psychologische, gedragsmatige en fysieke interacties omvat. Het probleem is dat interactie meestal wordt geëvalueerd aan de hand van regressiemodellen, waarin de productterm betrekking heeft op statistische interactie in plaats van biologische interactie.

Biologische interactie verwijst naar twee of meer oorzaken die in hetzelfde mechanisme werken, met effecten die onderling afhankelijk zijn. Het beschrijft een natuurlijke toestand. Als basiseffecten worden gemeten als veranderingen in het ziekterisico, is er sprake van synergetische (d.w.z. positieve) biologische interactie wanneer het gezamenlijke effect van twee causale factoren groter is dan de som van hun afzonderlijke effecten.17  Statistische interactie beschrijft daarentegen niet de natuur, maar een wiskundig model. Deze wordt doorgaans beoordeeld met een productterm voor twee variabelen in een regressiemodel. De omvang ervan hangt af van de keuze van de maatregelen en de meetschaal. Statistische interactie impliceert alleen dat de fundamentele functionele vorm van een specifiek wiskundig model geen passende beschrijving is van de relatie tussen variabelen. Twee factoren die biologische interactie vertonen, kunnen al dan niet statistische interactie vertonen, afhankelijk van het gebruikte model.

Producttermen in regressiemodellen hebben eenheden die moeilijk te interpreteren zijn. Als één variabele de vetconsumptie is, gemeten in gram per dag, en een andere variabele het aantal pakjaren gerookte sigaretten, hoe moet dan een variabele worden geïnterpreteerd die de eenheid gram/dag vermenigvuldigd met pakjaren heeft? De uitdaging om dergelijke producttermcoëfficiënten te interpreteren heeft ertoe geleid dat de aandacht vooral uitgaat naar de p-waarde die bij de coëfficiënt hoort, in plaats van naar de grootte van de coëfficiënt zelf. Door de focus te leggen op de p-waarde, of op de vraag of de coëfficiënt van een productterm statistisch significant is, wordt het probleem van het verwarren van statistische interactie met biologische interactie alleen maar erger (zie misvatting 6). Een meer zinvolle beoordeling van interactie zou zijn om de focus te leggen op het percentage gevallen van een ziekte dat kan worden toegeschreven aan biologische interactie.17,18

Neem een eenvoudig voorbeeld uit de TREAT-studie (Trial to Reduce Cardiovascular Events with Aranesp Therapy19), waarin het risico op een beroerte werd geëvalueerd bij 4.038 patiënten met diabetes mellitus, chronische nierziekte en bloedarmoede die willekeurig werden ingedeeld in een groep die darbepoëtine alfa kreeg of een groep die een placebo kreeg. Bij patiënten zonder voorgeschiedenis van een beroerte was het risico op een beroerte tijdens de onderzoeksperiode 2% bij patiënten die placebo kregen en 4 % bij patiënten die darbepoëtine alfa kregen. Bij patiënten met een voorgeschiedenis van een beroerte waren de overeenkomstige risico’s 4 % en 12 %. De auteurs merkten op dat de risicotoename groter was voor darbepoëtine alfa bij patiënten met een voorgeschiedenis van beroerte, maar zij verwierpen deze interactie omdat de productterm in een logistisch regressiemodel niet statistisch significant was. Het verhoogde risico dat aan darbepoeitin alfa kon worden toegeschreven, was 2 % bij patiënten zonder voorgeschiedenis van een beroerte en 8 % bij patiënten met een voorgeschiedenis van een beroerte, wat wijst op een sterke biologische interactie tussen darbepoeitin alfa en een voorgeschiedenis van een beroerte. Als de risico’s louter additief waren, zou het risico bij patiënten met beide risicofactoren 6 % bedragen, in plaats van de werkelijke 12 %. De helft van het risico bij patiënten met beide risicofactoren lijkt toe te schrijven te zijn aan biologische interactie, ondanks de bewering van de auteurs dat er geen interactie was.

Misvatting 4. Bij het categoriseren van een continue variabele is een redelijk schema voor het kiezen van categoriegrenzen het gebruik van percentielgedefinieerde grenzen, zoals kwartielen of kwintielen van de verdeling.

Er zijn twee redenen waarom het gebruik van percentielen een slechte methode is voor het kiezen van categoriegrenzen. Ten eerste komen deze grenzen mogelijk niet overeen met de delen van de verdeling waar biologisch significante veranderingen plaatsvinden. Stel dat u een onderzoek uitvoert naar vitamine C-inname en het risico op scheurbuik in de Verenigde Staten. Als je de vitamine C-inname in vijf groepen zou indelen, zou je zien dat het hele verband tussen vitamine C-consumptie en scheurbuik beperkt was tot de laagste groep, en binnen die groep tot slechts een klein deel van de mensen die een uitzonderlijk lage vitamine C-inname hadden. 10 mg vitamine C per dag kan scheurbuik voorkomen, maar degenen die minder dan dat innemen, vertegenwoordigen slechts een fractie van 1% van de bevolking in de Verenigde Staten.20  Door gebruik te maken van op percentielen gebaseerde categorieën zou het onmogelijk zijn om het effect van onvoldoende vitamine C-inname op het risico op scheurbuik te achterhalen, omdat alle inname boven 10 mg/dag in wezen gelijkwaardig is. Als we routinematig percentiel-cut-points gebruiken, weten we misschien niet of we met hetzelfde probleem worden geconfronteerd als bij het onderzoek naar vitamine C en scheurbuik. Een effectiever alternatief zou zijn om te beginnen met veel smalle categorieën en aangrenzende categorieën samen te voegen totdat er significante verschillen in risico zichtbaar worden.

Het tweede probleem met op percentielen gebaseerde categorieën is dat het moeilijk is om resultaten tussen studies te vergelijken, omdat categorieën tussen studies die gebruikmaken van percentielcategoriegrenzen waarschijnlijk niet overeenkomen. Dit probleem kan worden voorkomen door grenspunten uit te drukken in de natuurlijke eenheden van de variabele (zoals mg/d voor vitamine C-inname). Het is ook nuttig om gemiddelden of medianen binnen categorieën te rapporteren.

Misvatting 5. Men moet altijd P-waarden of betrouwbaarheidsintervallen rapporteren die zijn gecorrigeerd voor meervoudige vergelijkingen.

Traditionele aanpassingen voor meervoudige vergelijkingen houden in dat de P-waarde of de breedte van een betrouwbaarheidsinterval wordt opgeblazen op basis van het aantal uitgevoerde vergelijkingen. Als men biologische gegevens analyseert die vol zitten met werkelijke verbanden, is het uitgangspunt voor traditionele aanpassingen wankel en zijn de aanpassingen moeilijk te verdedigen. De bezorgdheid over meervoudige vergelijkingen komt voort uit de angst om vals-significante bevindingen te vinden (type I-fouten in het jargon van de statistiek). In misvatting 6 bespreken we de problemen die zich voordoen bij het gebruik van statistische significantietests voor gegevensanalyse. Maar voordat we die problemen bekijken, gaan we eerst in op de redenen om gerapporteerde resultaten aan te passen voor meervoudige vergelijkingen.

Ondanks het feit dat een enkele significantietest bedoeld is om een kans van 5% (op het conventioneel gebruikte niveau) te hebben om significant te zijn wanneer de nulhypothese waar is, en daarom zouden meerdere tests, mits correct uitgevoerd, elk deze eigenschap moeten hebben, maar er bestaat bezorgdheid dat bij het uitvoeren van meerdere tests de kans op een vals-positief resultaat toeneemt. Naarmate het aantal tests toeneemt, neemt natuurlijk ook de kans toe dat een of meer tests vals-positief zijn, maar dat komt alleen omdat er veel tests worden uitgevoerd. Aanpassingen voor meervoudige vergelijkingen verminderen dit soort type I-fouten, maar dat gaat ten koste van een toename van type II-fouten, wat niet-significante testresultaten zijn in aanwezigheid van een reëel verband. Wanneer waargenomen verbanden allemaal het resultaat zijn van toeval, kunnen type I-fouten voorkomen, maar type II-fouten kunnen niet voorkomen. Omgekeerd, wanneer de waargenomen verbanden allemaal werkelijke relaties weerspiegelen, kunnen type II-fouten optreden, maar type I-fouten niet. De context van elke analyse heeft dus fundamentele implicaties voor de interpretatie van de gegevens. Het is met name absurd om aanpassingen te doen die type I-fouten verminderen ten koste van een toename van type II-fouten, zonder een evaluatie van de geschatte relatieve kosten en frequentie van elk type fout.

Als wetenschappers willekeurige getallen zouden bestuderen in plaats van biologische gegevens, zouden alle significante resultaten die zij rapporteren type I-fouten zijn, en zouden aanpassingen voor meervoudige vergelijkingen zinvol zijn; sommige sceptici zijn van mening dat studies van genoomwijde associatiescans deze situatie benaderen.21 Maar wanneer wetenschappers biologische relaties bestuderen in plaats van willekeurige getallen, kan de veronderstelling dat type I-fouten het grootste probleem zijn, onjuist zijn.22  Een meer rigoureuze evaluatie van de noodzaak van multipliciteitsaanpassingen zou beginnen met een beoordeling van de houdbaarheid van de stelling dat de gegevens in wezen willekeurige getallen zijn. Als men experimenten met paranormale verschijnselen bestudeert, zou scepsis over de resultaten een argument kunnen zijn voor multipliciteitsaanpassingen. Als men de fysiologische effecten van farmaceutische middelen bestudeert, zijn echte associaties te verwachten en zijn de aanpassingen moeilijker te verdedigen. Het bestuderen van enkelvoudige nucleotidepolymorfismen in relatie tot een bepaalde ziekte zou een middenweg kunnen zijn. Een benadering van deze kwestie die theoretisch beter te verdedigen is, is een Bayesiaanse benadering, waarbij vooraf geloofwaardigheid wordt toegekend aan verschillende niveaus van verbanden en aanpassingen worden gedaan met behulp van de stelling van Bayes om posterieure geloofwaardigheid te berekenen.23,24

Misvatting 6. Significantieonderzoek is nuttig en belangrijk voor de interpretatie van gegevens.

Significantieonderzoek heeft geleid tot veel meer misverstanden en verkeerde interpretaties dan duidelijkheid bij het interpreteren van onderzoeksresultaten.25–28  Een significantietest is een verslechterde versie van de P-waarde, een statistische grootheid die precisie combineert met effectgrootte, waardoor twee essentiële aspecten van gegevensinterpretatie door elkaar worden gehaald. Het meten van effectgrootte en precisie als afzonderlijke taken is een directere en duidelijkere benadering van gegevensinterpretatie.

Voor onderzoeken die tot doel hebben verbanden te meten en te concluderen of deze causale verbanden weerspiegelen, moet de focus op de omvang van deze verbanden voorop staan: het inschatten van effecten verdient duidelijk de voorkeur boven statistische toetsing. Idealiter schat een onderzoek de omvang van het effect in en analyseert het de mogelijke fouten die het effect kunnen hebben vertekend. Systematische fouten, zoals verstoring door gemeten factoren, kunnen worden aangepakt met analytische methoden; andere systematische fouten, zoals de effecten van meetfouten of selectiebias, kunnen worden aangepakt met gevoeligheidsanalyses (ook wel biasanalyse genoemd). Willekeurige fouten worden doorgaans uitgedrukt in betrouwbaarheidsintervallen, die een reeks parameterwaarden geven die consistent zijn met de gegevens tot op een bepaald niveau.

Het is jammer dat een betrouwbaarheidsinterval, waaruit zowel een schatting van de effectgrootte als de meetnauwkeurigheid kan worden afgeleid, doorgaans alleen wordt gebruikt om te beoordelen of het de nulwaarde bevat of niet, waardoor het wordt omgezet in een significantietest. Significantieproeven zijn een slecht classificatiesysteem voor onderzoeksresultaten; sterke effecten kunnen ten onrechte worden geïnterpreteerd als nulbevindingen omdat auteurs ten onrechte het ontbreken van statistische significantie interpreteren als een gebrek aan effect, of zwakke effecten kunnen ten onrechte worden geïnterpreteerd als belangrijk omdat ze statistisch significant zijn. In plaats van te worden gebruikt als vervangende significantietests, moeten betrouwbaarheidsintervallen worden geïnterpreteerd als kwantitatieve maatstaven die de omvang van de effectgrootte en de mate van nauwkeurigheid aangeven, waarbij weinig aandacht wordt besteed aan de precieze locatie van de grenzen van het betrouwbaarheidsinterval. Dit advies wordt ondersteund door de Uniform Requirements for Manuscripts Submitted to Biomedical Journals, maar wordt niettemin vaak over het hoofd gezien, zelfs door recensenten en redacteuren van tijdschriften die deze vereisten ondersteunen.29

Veel misvattingen komen voort uit het vertrouwen op statistische significantietests. De focus op de statistische significantie van interactietermen in plaats van het meten van interactie, zoals hierboven besproken, is daar een voorbeeld van. De evaluatie van dosis-respons trends door simpelweg te verklaren dat er al dan niet een significante trend is, in plaats van de omvang en idealiter de vorm van die trend weer te geven, is een ander voorbeeld. Nog een ander voorbeeld is het advies dat soms wordt gegeven om de power van een studie te berekenen bij het rapporteren van resultaten, vooral als die resultaten niet statistisch significant zijn. Het rapporteren van de power van een onderzoek als onderdeel van de resultaten wordt ‘post-hoc’-powerberekening genoemd.30  Powerberekeningen zijn gebaseerd op een hypothese over het niveau van associatie dat moet worden onderscheiden van een nulassociatie, maar wanneer de onderzoeksresultaten voorhanden zijn, is het niet langer nodig om een hypothese te formuleren over de omvang van de associatie, omdat u daar nu een schatting van hebt. Een betrouwbaarheidsinterval voor de geschatte associatie geeft alle relevante informatie weer; een vermogensberekening levert niets meer op.

Het ongelukkige gevolg van de focus op statistische significantietests is dat er een dichotome kijk op relaties is ontstaan die beter in kwantitatieve termen kunnen worden beoordeeld. Dit onderscheid is meer dan een subtiliteit. Elke dag zijn er belangrijke, betreurenswaardige en vermijdbare verkeerde interpretaties van gegevens die het gevolg zijn van de verwarrende mist van statistische significantietests. De meeste van deze fouten zouden kunnen worden voorkomen als de focus zou worden verlegd van statistische tests naar schattingen.

Conclusie

Waarom blijven zulke belangrijke misvattingen over onderzoek bestaan? Deze misvattingen zijn in grote mate een vervanging voor meer doordachte en moeilijke taken. Het is eenvoudiger om een discrepantie tussen een proef en een niet-experimenteel onderzoek op te lossen ten gunste van de proef, zonder de moeizame analyse uit te voeren die Hernan et al. hebben gedaan.10  Het is gemakkelijk om te verklaren dat een resultaat statistisch niet significant is, waardoor ten onrechte wordt gesuggereerd dat er geen aanwijzingen zijn voor een verband, in plaats van kwantitatief te kijken naar het bereik van verbanden dat de gegevens daadwerkelijk ondersteunen. Deze misvattingen zijn een makkelijke weg, maar wanneer die weg vol is met anderen die dezelfde weg bewandelen, is er misschien weinig reden om de route in twijfel te trekken. Deze misvattingen worden inderdaad vaak in tijdschriften, klaslokalen en studieboeken in stand gehouden. Ik ben van mening dat de beste kans op verbetering ligt in het vergroten van het bewustzijn over deze kwesties, met een redelijk debat. Max Planck zei ooit: “Een nieuwe wetenschappelijke waarheid zegeviert niet door haar tegenstanders te overtuigen en hen het licht te laten zien, maar omdat haar tegenstanders uiteindelijk sterven en er een nieuwe generatie opgroeit die ermee vertrouwd is.”31  Voor zover deze cynische visie juist is, kunnen we verwachten dat verouderde concepten in het beste geval langzaam zullen verdwijnen. Ik hoop dat het onder de aandacht brengen van deze misvattingen de nodige discussies op gang zal brengen en een katalysator voor verandering zal zijn.


Dankwoord: Ik heb nuttige kritiek ontvangen van Susana Perez, Andrea Margulis, Manel Pladevall en Jordi Castellsague.

Belangenconflict: De auteur verklaart geen belangenconflict te hebben.

Corresponderende auteur: Kenneth J. Rothman, DrPH; Research Triangle Institute, Research Triangle Park, NC, VS (e-mail: [email protected]).

Open Access Dit artikel wordt verspreid onder de voorwaarden van de Creative Commons Attribution License, die elk gebruik, elke verspreiding en elke reproductie in elk medium toestaat, mits de oorspronkelijke auteur(s) en de bron worden vermeld.

REFERENTIES

  1. Hernán MA, Hernández-Díaz S, Robins JM. Gerandomiseerde studies geanalyseerd als observationele studies. Ann Intern Med. 2013;159:560–2. doi:10.7326/0003-4819-159-8-201310150-00709
  2. Ioannidis JPA. Waarom de meeste gepubliceerde onderzoeksresultaten onjuist zijn. PLoS Med. 2005;2(8):e124.
  3. Hiatt WR. Observationele studies naar de veiligheid van geneesmiddelen – aprotinine en het gebrek aan transparantie. N Engl J Med. 2006;355:2171–3.
  4. Shaten BJ, Kuller LH, Kjelsberg MO, Stamler J, Ockene JK, Cutler JA, Cohen JD. Longkankersterfte na 16 jaar bij MRFIT-deelnemers in interventie- en gebruikelijke zorggroepen. Multiple Risk Factor Intervention Trial. Ann Epidemiol 1997;7:125–36.
  5. Grodstein F, Manson JE, Colditz GA, et al. Een prospectieve, observationele studie naar postmenopauzale hormoontherapie en primaire preventie van hart- en vaatziekten. Ann Intern Med. 2000;133:933–41.
  6. Varas-Lorenzo C, García-Rodríguez LA, Pérez-Gutthann S, et al. Hormoonvervangende therapie en incidentie van acuut myocard infarct. Circulation. 2000;101:2572–8.
  7. Hulley S, Grady D, Bush T, Furberg C, Herrington D, Riggs B, Vittinghoff E. Gerandomiseerde studie naar oestrogeen plus progestageen voor secundaire preventie van coronaire hartziekten bij postmenopauzale vrouwen. Heart and Estrogen/progestin Replacement Study (HERS) Research Group. JAMA. 1998;280:605–13. doi:10.1001/jama.280.7.605.
  8. Manson JE, Hsia J, Johnson KC, et al. Oestrogeen plus progestageen en het risico op coronaire hartziekten. N Engl J Med. 2003;349:523–34.
  9. Taubes G. Weten we echt wat ons gezond maakt? New York Times, 16 september 2007.
  10. Hernán MA, Alonso A, Logan R, Grodstein F, Michels K, Willett WC, Manson JE, Robins JM. Observationele studies geanalyseerd als gerandomiseerde experimenten: een toepassing op postmenopauzale hormoontherapie en coronaire hartziekten. Epidemiology. 2008;19:766–79. doi:10.1097/EDE.0b013e3181875e61
  11. Concato J. Observationele versus experimentele studies: wat is het epidemiologische bewijs voor een hiërarchie? NeuroRx. 2004;1:341–7.
  12. Vandenbroucke JP, Pearce N. Case–control studies: basic concepts. Int J Epidemiol. 2012;41:1480–9. doi:10.1093/ije/dys147.
  13. Rothman KJ. Hoofdstuk 5, Soorten epidemiologische studies, in Epidemiology, An Introduction, 2e editie. Oxford University Press, New York, 2012.
  14. Doll R, Hill AB. De sterfte onder artsen in relatie tot hun rookgewoonten: een voorlopig rapport. Br Med J. 1954;ii:1451–5.
  15. Rothman KJ, Gallacher J, Hatch EE. Waarom representativiteit moet worden vermeden. Int J Epidemiol. 2013;42:1012–4. doi:10.1093/ije/dys223
  16. Rothman KJ, Gallacher J, Hatch EE. Als het gaat om wetenschappelijke gevolgtrekkingen, is een sigaar soms gewoon een sigaar. Int J Epidemiol. 2013;42:1026–8. doi:10.1093/ije/dyt124
  17. Rothman KJ. Hoofdstuk 11, Interactie meten, in Epidemiology, An Introduction, 2e editie. Oxford University Press, New York, 2012.
  18. Knol MJ, van der Tweel I, Grobbee DE, Numans ME, Geerlings MI. Schatting van interactie op een additieve schaal tussen continue determinanten in een logistisch regressiemodel. Int J Epidemiol. 2007;36:1111–8.
  19. Skali H, Parving HH, Parfrey PS, Burdmann EA, Lewis EF, Ivanovich P, Keithi-Reddy SR, McGill JB, McMurray JJ, Singh AK, Solomon SD, Uno H, Pfeffer MA. TREAT-onderzoekers: Beroerte bij patiënten met diabetes mellitus type 2, chronische nierziekte en bloedarmoede die worden behandeld met darbepoëtine alfa: de studie naar het verminderen van cardiovasculaire voorvallen met Aranesp- -therapie (TREAT). Circulation. 2011;124:2903–8.
  20. Aanbevolen dagelijkse hoeveelheden voor vitamine C, vitamine E, selenium en carotenoïden. Institute of Medicine, The National Academies Press, Washington, D. C., 2000.
  21. Dudbridge F, Gusnanto A. Schatting van significantiedrempels voor genomische associatiescans. Genet Epidemiol. 2008;32:227–34.
  22. Rothman KJ. Er zijn geen aanpassingen nodig voor meervoudige vergelijkingen. Epidemiology. 1990;1:43–6.
  23. Greenland S, Robins J. Empirisch-Bayesiaanse aanpassingen voor meervoudige statistische vergelijkingen zijn soms nuttig. Epidemiology. 1991;2:244–51.
  24. Greenland S, Poole C. Empirisch-Bayesiaanse en semi-Bayesiaanse benaderingen van toezicht op beroeps- en milieurisico’s. Arch Environ Health. 1994;48:9–16.
  25. Rothman KJ. Een blijk van vertrouwen (redactioneel artikel). N Engl J Med. 1978;299:1362–3.
  26. Poole C. Voorbij het betrouwbaarheidsinterval. Am J Public Hlth. 1987;77:195–9.
  27. Rothman KJ. Op zoek naar significantie (redactioneel artikel). Ann Int Med. 1986;105:445–7.
  28. Gelman A, Stern H. Het verschil tussen ‘significant’ en ‘niet significant’ is op zichzelf niet statistisch significant. Amer Statistician. 2006;60:328–31.
  29. Uniform Requirements for Manuscripts Submitted to Biomedical Journals, http://www.icmje.org/manuscript_1prepare.html (geraadpleegd op 2 mei 2013)
  30. Smith AH, Bates MN. Confidence limit analyses should replace power calculations in the interpretation of epidemiologic studies. Epidemiology. 1992;3:449–52.
  31. Planck M. Wetenschappelijke autobiografie en andere artikelen, Philosophical Library, New York, 1968, vert. F. Gaynor (New York, 1949), pp. 33–34

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *