Subgruppenanalysen können irreführend sein

Die Einnahme von Aspirin als Blutverdünner gehört zur Standardbehandlung nach einem Herzinfarkt und ist wissenschaftlich gut belegt[2]. In einer recht bekannten Studie, die die Einnahme von Aspirin zur Behandlung von Herzinfarkten untersuchte, zeigte sich bei Teilnehmern mit den Sternzeichen Zwillinge und Waage allerdings kein statistisch signifikanter Nutzen des Medikaments[1]. Wie kann das sein?

Ein solcher vermeintlicher Widerspruch kann entstehen, wenn man kleine Gruppen von Studienteilnehmern innerhalb einer Studie isoliert betrachtet. Insgesamt wurde die Wirksamkeit von Aspirin durchaus nachgewiesen.

Die Untersuchung einer Untergruppe von Teilnehmern mit bestimmten Eigenschaften bezeichnet man als „Subgruppenanalyse“. Eines der Probleme von Subgruppenanalysen ist die erhöhte Wahrscheinlichkeit von statistisch signifikanten, aber in Wirklichkeit falschpositiven Ergebnissen. Denn je mehr Charakteristika von Subgruppen analysiert werden (z.B. Geschlecht, Alter, Augenfarbe, Sternzeichen), desto wahrscheinlicher findet sich auf irgendeiner der Charakteristika zufällig ein statistisch signifikanter Effekt [3]. Dies soll nachfolgend anhand eines fiktiven Beispiels illustriert werden:

Die Marmeladenbrot-Studie

Angenommen, die Autoren einer Studie möchten untersuchen, ob Marmeladenbrote die Lebenszufriedenheit verbessert. Dafür nehmen sie 1000 Teilnehmer in diese Studie auf; 500 davon essen eine Woche lang zu jeder Mittagsmahlzeit Marmeladenbrote, während die anderen 500 ihr übliches Mittagessen zu sich nehmen. Endlich ist es soweit, die Studie wird ausgewertet, die Ergebnisse liegen vor: Zur großen Enttäuschung der Autoren zeigt sich keine statistisch signifikante Verbesserung der Lebenszufriedenheit nach dem Verzehr vieler Marmeladenbrote.

Daraufhin machen die Wissenschaftler eine Reihe von Subgruppenanalysen, um herauszufinden, ob die Wirkung der Marmeladenbrote bei unterschiedlichen Teilnehmern unterschiedlich ausfällt.

Zuerst untersuchen sie mögliche Unterschiede bei Männern und Frauen, aber offenbar stellte sich in keiner dieser Subgruppen irgendein statistisch signifikanter Nutzen ein. Dann betrachten sie getrennt Teilnehmer über und unter einer Körpergröße von 1,50 Meter, aber auch das war offenbar nicht mit einem statistisch signifikanten Nutzen verbunden. Anschließend werden Subgruppenanalysen nach Gewicht, Frisur, Beruf, Familienstand, Alter, Lungenfunktion und Cholesterinspiegel durchgeführt; alle ohne Erfolg.

Doch dann ein Treffer: Es stellt sich heraus, dass bei Teilnehmern mit grünen Augen nach täglichem Genuss von Marmeladenbroten eine statistisch signifikante Verbesserung der Lebenszufriedenheit eintrat. In Wirklichkeit hat die Augenfarbe natürlich keinerlei Einfluss auf die Wirksamkeit von Marmeladenbroten zur Verbesserung der Lebenszufriedenheit. Doch rein zufällig wies die Subgruppe von grünäugigen Teilnehmern, die Marmeladenbrote verzehrte, eine höhere Lebenszufriedenheit auf. Je öfter man schaut, desto größer wird das Risiko solcher falsch-positiven Ergebnisse (im Prinzip wie: je öfter ich würfle, desto größer ist die Wahrscheinlichkeit, dass zufällig zwei Mal nacheinander eine 6 gewürfelt wird und damit “mehr Glück” als meine Mitspieler habe).

Falschnegative Ergebnisse

Subgruppenanalysen können auch zu falschnegativen Ergebnissen führen, d. h. eine tatsächlich vorhandene Wirkung nicht erkennen. Neben dem gleichen Sachverhalt wie eben bei den Falschpositiven illustriert wurde, kann bei falschnegativen Ergebnissen die Subgruppengröße ein zusätzlicher Grund sein: die Subgruppe hat nicht genug Teilnehmer, um eine Wirkung erkennen zu können [3]. So deuteten frühere Studien auf Basis von Subgruppenanalysen darauf hin, dass Aspirin nach einem Schlaganfall nur bei Männern das Risiko eines weiteren Schlaganfalls oder Todes reduzierte [4]. Tatsächlich ist der Nutzen bei Frauen genauso groß, die Anzahl von Frauen mit Schlaganfall in dieser Studie war aber nicht ausreichend, um diesen Effekt zu belegen [5].

Wohlgemerkt: Richtig angewandt, sind Subgruppenanalysen ein sehr nützliches Instrument. Zum Beispiel wurde durch Subgruppenanalysen in Studien zur Untersuchung von Halsoperationen bei Patienten mit teilblockierten Arterien zutreffend nachgewiesen, dass verschiedene Eigenschaften wie Alter, vorherige Schlaganfälle und Herzinfarkte die mit dem Eingriff verbundenen Risiken beeinflussen [6].

Fazit

Allzu oft werden Subgruppenanalysen vor Beginn einer Studie schlecht oder gar nicht geplant [7]. Manchmal werden Behandlungseffekte innerhalb der Subgruppen wegen der geringen Anzahl von relevanten Teilnehmern übersehen. Die Durchführung einer Vielzahl von Subgruppenanalysen erhöht die Wahrscheinlichkeit, dass scheinbar signifikante Effekte in Wirklichkeit ausschließlich auf den Zufall zurückzuführen sind. Schlussfolgerungen zur Wirksamkeit einer Behandlung, die allein aus Subgruppenanalysen gezogen werden, können sehr irreführend sein und sind mit Vorsicht zu genießen.

Text: Ed Walsh

Übersetzt von:

Redaktion: Cochrane Deutschland

Zum Originaltext

Zu den Quellenangaben

Anmerkungen:

Dies ist der 24. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können. 

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Schlüsselkonzept 2.11

2.11 Ergebnisse von Vergleichsstudien sollten immer vollständig veröffentlicht werden

Wie wichtig es ist, Behandlungsentscheidungen auf der Grundlage angemessener Evidenz zu treffen, ist heute klarer denn je.

Um Evidenz als verlässlich einstufen zu können, müssen Studien, die medizinische Behandlungen untersuchen, faire Vergleiche umfassen. Zum Beispiel darf keine der Behandlungsgruppen irgendwelche vorteilhaften Eigenschaften aufweisen. Das wäre zum Beispiel der Fall, wenn Teilnehmer der Behandlungsgruppe jünger und gesünder wären als die der Kontrollgruppe. Auch müssen die Teilnehmer nach dem Zufallsprinzip den jeweiligen Gruppen zugeteilt werden, um die Ähnlichkeit wichtiger Teilnehmerindikatoren zu gewährleisten [2]. Sind Behandlungsvergleiche nicht fair, so führt das zu Verzerrungen (Biases), die die Ergebnisse einer Studie in Frage ziehen können.

„Reporting-Bias“ – oder das Selektive Berichten von Ergebnissen

Der „Reporting-Bias“ ist eine Verzerrung, die durch das selektive Berichten von Studienergebnissen oder Studien entsteht, wobei normalerweise positive Ergebnisse bevorzugt veröffentlicht werden. Reporting Bias ist in der Gesundheitsforschung weit verbreitet und als Problem schon seit geraumer Zeit bekannt [4]. Nützliche Informationen zu diesem Thema bietet auch die James Lind Library.

Es gibt verschiedene Formen von Reporting-Bias: Zum Beispiel werden statistisch signifikante, „positive“ Ergebnisse im Vergleich zu Null-Ergebnissen mit höherer Wahrscheinlichkeit überhaupt veröffentlicht („Publikationsbias“), schneller veröffentlicht („time-lag Bias“) und mit höherer Wahrscheinlichkeit in bedeutenden Fachzeitschriften veröffentlicht („Location-Bias“).

Auch innerhalb einer Studie kann Reporting-Bias auftreten. Zum Beispiel können Wissenschaftler selektiv bestimmte Ergebnisse berichten und andere nicht, je nachdem, ob ihnen Art und Richtung dieser Ergebnisse „ins Konzept passen“ („Outcome-Reporting-Bias“). Mehr zu den verschiedenen Arten von Reporting-Bias erfahren Sie hier.

Heute sind viele klinische Studien qualitativ hochwertig und Verzerrungen in Bezug auf unfaire Behandlungsvergleiche sind mittlerweile unwahrscheinlicher geworden als früher. Aber selbst wenn Studien auf fairen Behandlungsvergleichen beruhen, stellt das selektive Nicht-Publizieren von Studienergebnissen ein Problem dar, besonders wenn diese Null-Ergebnisse oder unerwartete Schlussfolgerungen für die Behandlung enthalten. Dies kann die gesamte Evidenzlage verfälschen.

Ein Beispiel: In den 1980er Jahren wurde eine Gruppe von Medikamenten (sogenannte Antiarrhythmika) oft angewandt, um Herzrhythmusstörungen zu kontrollieren, eine Indikation für die es einige Evidenz gab. Allerdings nahm man aufgrund der Tatsache, dass Herzrhythmusstörungen das Sterblichkeitsrisiko nach einem Herzinfarkt erhöhen, im Umkehrschluss an, dass diese Medikamente auch das herzinfarktbedingte Sterblichkeitsrisiko senken könnten.

Leider gab es für diese Annahme keine Evidenz. Tatsächlich war das Gegenteil der Fall: Die Medikamente verursachten in den 1980er Jahren zahlreiche Todesfälle. Später stellte sich heraus, dass Studien, die auf letale Auswirkungen dieser Medikamente hingedeutet hatten, nicht öffentlich zugänglich waren. Versuche, sie zu publizieren waren fehlgeschlagen, weil diese Ergebnisse nicht in das damalige Bild einer positiven Wirkung von Antiarrhythmika nach Herzinfarkt passten [1].

Die Folgen von Reporting-Bias für die Gesundheitsversorgung können weitreichend sein. Insbesondere wenn eine einzelne Studie als Grundlage für Behandlungsentscheidungen dient, kann das Nichtveröffentlichen oder Nichtberichten von Null-Ergebnissen schwerwiegende Konsequenzen haben.

Bedeutung für systematische Reviews

Schauen wir uns den Reporting-Bias einmal im Zusammenhang mit systematischen Reviews an. Systematische Reviews ermöglichen es an sich, unverzerrte Bewertungen von Behandlungseffekten zu erstellen. Da systematische Reviews ein Versuch sind, Verzerrungen zu reduzieren, dürften sie als verlässlicher gelten als andere Arten von Reviews (etwa narrative Reviews) oder einzelne Studien, die eher anfällig für systematische Fehler, Verzerrungen und Zufallseffekte sind [1]. Allerdings stellt die Qualität der Studien, die für den Review zur Verfügung stehen, natürlich auch eine Einschränkung der Qualität de Übersichtsarbeit dar. Wenn also die einzelnen Studien vom Reporting-Bias betroffen sind, kann auch der systematische Review die Wirksamkeit zu einer bestimmten Behandlung überschätzen oder nachteilige Wirkungungen unterschätzen.

Folgen von Reporting-Bias

Da Behandlungsentscheidungen und zukünftige Forschungsstudien von bisherigen Veröffentlichungen abhängen, können die verschiedenen Arten von Reporting-Bias schwerwiegende Folgen haben. Patienten, die auf Basis unvollständiger oder verzerrter Evidenz behandelt werden, können Schäden erleiden oder sogar sterben.
Reporting-Bias ist daher sowohl ein ein wissenschaftliches, als auch ethisches Problem [1].

Fazit

Wenn Sie einen systematischen Review lesen, sollten Sie sich fragen: „Haben die Autoren den Versuch unternommen, auch relevante nicht-veröffentlichte Evidenz zu ermitteln?“ Denn zumindest der Versuch sollte gemacht worden sein. [4].

Zum Glück gibt es Lösungsansätze für dieses Problem. In vielen Ländern besteht inzwischen die Verpflichtung, geplante Studien zu registrieren. Dadurch lässt sich später besser nachvollziehen, ob die Studien nach Plan durchgeführt und alle Ergebnisse berichtet wurden. Ein hervorragendes Werkzeug ist die Website „Trials Tracker“, auf der Organisationen und Arzneimittelhersteller benannt werden, welche Ergebnisse von registrierten Studien nicht fristgerecht berichtet haben. Hier kann man auch Studien identifizieren, deren Veröffentlichung noch aussteht.

Text: Benjamin Kwapong

Übersetzt von: Katharina Jones

Zum Originaltext 

Zu den Quellenangaben

Anmerkungen:

Dies ist der 23. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Übersichtsarbeiten zu fairen Behandlungsvergleichen sollten systematisch sein

Dies ist der 21. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Wenn es um die bestmögliche Behandlung geht, sollten wir nach Reviews suchen, welche die verfügbare Evidenz möglichst vollständig und systematisch zusammenfassen, und zwar aus folgendem Grund:
Angenommen, eine neue, spannende einzelne Studie behauptet, dass sich mit einem neuen Medikament („Medikament A“) die Erkrankung B wirksam behandeln lässt. Sind die Ergebnisse dieser einen Studie dann uneingeschränkt verlässlich?

Nein.

Warum nicht?

Hier könnte es sich ganz einfach um einen Zufallseffekt handeln. Die vermeintlich bahnbrechende Erkenntnis ist möglicherweise rein zufällig zustande gekommen, selbst wenn die Anzahl der Teilnehmer und der festgestellten Endpunkte sehr hoch und die Studie methodisch ausgereift war (was oft nicht der Fall ist). Das Studienergebnis kann schlicht ein Zufallstreffer sein.

Sich auf das Ergebnis dieser einen Studie zu verlassen, ist problematisch. Ärzte und Krankenversicherungsträger treffen ihre Entscheidungen normalerweise nicht auf Grundlage einer einzelnen Studie. Für wichtige Entscheidungen braucht es eine breite Evidenzlage [1].

Wie geht es weiter, wenn es viele Studien gibt?

Bevor wir uns ein Urteil bilden, müssen wir alle relevanten Studien dahingehend kritisch bewerten, ob Medikament A für die Erkrankung B wirksam ist. Dafür haben wir zwei Möglichkeiten.

Wir können einen narrativen Review (auch „herkömmlicher Review“) oder einen systematischen Review durchführen. Narrative Reviews beinhalten die Recherche nach relevanten Studien, es wird aber nicht vorher festgelegt, welche Studien eingeschlossen werden und warum. Bei systematischen Reviews dagegen wird in einem Protokoll definiert, was „relevante Studien“ sind. Alle Studien, die diese Anforderungen erfüllen, müssen eingeschlossen werden.

Im Gegensatz zu Autoren narrativer Reviews sollten Autoren systematischer Reviews ihr Protokoll idealerweise öffentlich zugänglich machen und in der endgültigen Version ihrer Arbeit ihre Kriterien sowie alle ihre Entscheidungsfindungen eindeutig benennen. Die Angaben sollten so genau sein, dass Andere den gleichen Review wiederholen und beurteilen können, ob sie ähnliche Ergebnisse erzielen. Systematische Reviews gelten daher als wissenschaftlicher und sind leichter überprüfbar als narrative Reviews [3].

Die Aussagekraft systematischer Reviews kann und soll wenn möglich mithilfe statistischer Verfahren, sogenannter Metaanalysen, erhärtet werden. In Metaanalysen werden Daten aus allen verfügbaren Studien statistisch zusammengefasst. Sie liefern gute Näherungswerte zu den Effekten der verglichenen Behandlungen [4]. Mehr zu diesem Thema erfahren Sie hier: consumers.cochrane.org/CochraneSummaries .

Warum systematische Reviews nützlich sind

Wie weiter oben gezeigt muss man bei der Durchführung von Reviews Maßnahmen treffen, um Verzerrungen (systematische Fehler) und Zufallseffekte (zufällige Fehler) zu reduzieren. Verzerrungen („Bias“) können auch durch vorgefasste Meinungen von Autoren und ökonomische Interessen entstehen. Diese Verzerrungen beeinflussen häufig die Wahrnehmung bestimmter Ergebnisse.

Bei narrativen Reviews gibt es einen großen Spielraum für Verzerrungen, da Reviewer Studien je nach deren Übereinstimmung mit zuvor gefassten Ansichten, Motivationen oder Hintergründen einbeziehen oder auslassen können. Reviewer können praktisch tun und lassen, was sie wollen, und jede Schlussfolgerung treffen, die ihnen und ihren Interessen genehm ist. Bei systematischen Reviews sind Verzerrungen zwar auch nicht ausgeschlossen, werden aber durch entsprechende Maßnahmen möglichst reduziert. Die Reviewer machen transparent, was sie tun, und sie müssen ihre Entscheidungen begründen. Mit diesen Informationen können wir eher darauf vertrauen, dass das Verzerrungsrisiko solcher Arbeiten relativ gering ist.

Aber auch systematische Reviews haben ihre Probleme. Wie alles in der Forschung ist auch hier die Qualität sehr unterschiedlich; einige systematische Reviews sind nicht vertrauenswürdig. Bei einer Wiederholung des Reviews kommen unterschiedliche Autoren unter Umständen zu unterschiedlichen Schlussfolgerungen. Das kann passieren, weil in einem Review nicht alle relevanten Studien einbezogen wurden.

Sprache ist eine mögliche Barriere, die das Einbeziehen bestimmter Studien in einen Review verhindern kann. Zum Beispiel könnten einem englischsprachigen Reviewer relevante Studien in anderen Sprachen entgehen. Möglicherweise werden Studien aber auch außer Acht gelassen, weil sie vermeintlich nicht „spannend“ genug für eine Veröffentlichung waren. Manchmal halten sowohl Wissenschaftler als auch Pharmaunternehmen Studien, die nicht mit vorher gemachten Aussagen zu Behandlungen übereinstimmen, unter Verschluss.

Relevante Forschung auszulassen, weil sie die eigenen Aussagen zu Behandlungen nicht unterstützt, ist unethisch, unwissenschaftlich und unwirtschaftlich.

Ein Beispiel: Im Juni 2001 verstarb die junge, zuvor gesunde Labortechnikerin Ellen Roche nach der Teilnahme an einer Studie der John-Hopkins-Universität zur Messung der Atemwegsempfindlichkeit. Im Rahmen der Studie musste sie ein Medikament (Hexamethonium-Bromid) inhalieren. Das führte zu progredientem Lungen- und Nierenversagen. Der behandelnde Arzt Dr. Alkis Togias hatte die unerwünschten Wirkungen des Medikaments zwar recherchiert, die Recherche aber anscheinend auf Evidenz aus Datenbeständen begrenzt, die nur bis zum Jahr 1966 zurückreichten. Wie sich zeigte, war bereits in den 1950er Jahren in veröffentlichten Studien vor der Wirkung dieses Medikaments gewarnt worden. Der Tod von Ellen Roche wäre also vermeidbar gewesen [2].

Ein anderes Beispiel für die Notwendigkeit eines systematischen und gründlichen Reviews von Evidenz stammt aus der Behandlung von Herzinfarktpatienten. Ab den 1980er Jahren mussten viele Lehrbuch-Empfehlungen für Therapien nach einem Herzinfarkt revidiert werden, weil sie nicht auf Auswertungen der relevanten Evidenz beruhten. Wie sich herausstellte hatten Ärzte viele Jahre lang tatsächlich wirksame Therapien nicht eingesetzt und stattdessen Behandlungsmethoden verwendet, die Schäden hervorriefen[1].

Reviews sind als Grundlage für Behandlungsentscheidungen unverzichtbar, sie müssen aber systematisch erfolgen.

Text: Benjamin Kwapong

Übersetzt von: Katharina Jones

Zum Originaltext

Quellen

Klicken Sie hier für weitere Materialien zum Thema, warum Übersichtsarbeiten zu fairen Behandlungsvergleichen systematisch sein sollten

*Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

2.8 Alle relevanten und fairen Behandlungsvergleiche müssen berücksichtigt werden

Dies ist der 20. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (IHC) Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

In Blog 2.1 haben wir bereits die Bedeutung fairer Behandlungsvergleiche festgestellt. Jetzt wollen wir uns ein paar Gedanken dazu machen, wie viele Behandlungsvergleiche berücksichtigt werden sollten.

Man kann sich natürlich leicht vorstellen, dass jeder relevante, faire Vergleich von Behandlungen einbezogen werden sollte – aber warum? In diesem Blog wird untersucht, wie wichtig es ist, alle relevanten fairen Behandlungsvergleiche zu berücksichtigen und was folgen kann, wenn das nicht passiert.

Sowohl Quantität als auch Qualität

Würden Sie von einem Arzt erwarten, dass er ein Medikament auf Basis einer einzigen, das Medikament als wirksam beschreibenden Studie verschreibt? Wohl kaum! Eine einzelne Studie wird wahrscheinlich keine unwiderlegbare Evidenz für eine Behandlung erbringen, unabhängig davon, wie sorgfältig sie durchgeführt wurde. Genauso wenig können aus einem einzigen Vergleich zweier oder mehrerer Behandlungen Schlussfolgerungen gezogen werden, denn die Ergebnisse können irreführend sein, weil sie dem Zufall geschuldet sein können.

Das trifft besonders auf kleine Studien zu, in denen wenige Behandlungsergebnisse beobachtet wurden. Die Zusammenfassung von Ergebnisdaten, zum Beispiel in Form einer Metaanalyse, ermöglicht uns die Durchführung statistischer Tests und die Bestimmung von Konfidenzintervallen unter Verwendung der gesamten verfügbaren relevanten Evidenz. Im Kern erleichtert es die Ermittlung der Wahrscheinlichkeit, mit der Behandlungswirkungen zufällig zustande gekommen sind, und bewahrt uns vor dem falschen Schluss, dass es zwischen zwei Behandlungen einen statistisch signifikanten Unterschied gibt bzw. nicht gibt.

Durch die Berücksichtigung aller relevanten fairen Behandlungsvergleiche können mehr Daten zu den betreffenden Behandlungen gewonnen werden. In der Praxis bedeutet das, dass Forscher und Ärzte die wahrscheinlichen Effekte einer Behandlung genauer und zuverlässiger einschätzen können, sei es durch Informationen zur wirksamsten Dosierung, zu häufigen Nebenwirkungen oder zur wahrscheinlichen Erfolgsquote.

Was sind die Folgen, wenn nur die „passenden“ Behandlungsvergleiche herangezogen werden?

Nicht alle relevanten fairen Behandlungsvergleiche zu berücksichtigen, kann schwerwiegende Folgen haben. Es kann bedeuten, dass Studienteilnehmer und Patienten Behandlungen erhalten, die ihnen womöglich schaden, oder dass ihnen nützliche Behandlungen vorenthalten werden.

Das trifft zum Beispiel auf die vielen schwangeren Frauen zu, die in den 1980er und 90er Jahren Frühgeburten hatten. Frühgeborene kommen oft mit nicht vollentwickelter Lunge oder anderen nicht ausgereiften Organen zur Welt. Eine mögliche Folge davon ist das Atemnotsyndrom des Frühgeborenen (infant respiratory distress syndrome, IRDS), das tödlich verlaufen kann.

In den 1980er Jahren ergab sich immer mehr überzeugende Evidenz für eine Abnahme von IRDS und der Säuglingssterblichkeit durch die Verabreichung von Kortikosteroiden an Schwangere, bei denen mit einer Frühgeburt zu rechnen war. Nichtsdestotrotz wurden in den folgenden zehn Jahren weitere Studien durchgeführt, in denen einige Teilnehmerinnen ein Placebo oder keine Behandlung erhielten. In einigen Fällen bezahlten die Neugeborenen das mit dem Leben.

Natürlich wollten die Forscher die Teilnehmerinnen nicht absichtlich schädigen, und sicherlich untersuchten sie nur eine ihrer Überzeugung nach berechtigte Frage mit dem Ziel, die Lebensqualität vieler Patientinnen zu verbessern. Diese Forschung als „schlecht“ zu bezeichnen wäre nicht fair; „unnötig“ trifft es vielleicht besser. Wären die Daten aus allen relevanten fairen Behandlungsvergleichen früher statistisch zusammengefasst worden (d. h. in einem systematischen Review mit einer Metaanalyse), wäre offenkundig geworden, dass weitere Studien sowohl unbegründet als auch unethisch wären. Die Berücksichtigung aller relevanten fairen Behandlungsvergleiche kann also helfen, Patienten und Studienteilnehmer vor vermeidbarem Schaden zu schützen.

Noch mehr unnötige Forschung

Das Beispiel oben ist eine drastische Veranschaulichung dessen, was passieren kann, wenn nicht alle relevanten Behandlungsvergleiche berücksichtigt werden. Es gibt aber auch nicht so gravierende Beispiele, von denen wir lernen können.

Nachtkerzenöl wurde in den frühen 1980er Jahren als sichere und wirksame Behandlung für Ekzeme beworben. Hinter der Behauptung steckte eine gewisse Logik: Nachtkerzenöl enthält die essenzielle Fettsäure Gamma-Linolensäure (GLA), von dem angenommen wird, dass es bei einem atopischen Ekzem nicht ausreichend vorhanden ist.

Daraufhin wurden mehrere Studien durchgeführt, die zu widersprüchlichen Ergebnissen führten. Bedenklich war, dass ein Großteil der veröffentlichten Studien von Herstellern des Nachtkerzenöls gesponsert wurde. Selbst in einer 1989 durchgeführten Metaanalyse der Studien zur Beurteilung der Wirksamkeit des Nachtkerzenöls bei atopischen Ekzemen wurde eine große Studie ausgelassen, die keinerlei Unterschied zwischen Nachtkerzenöl und einem Placebo gefunden hatte. Ein Vergleich aller relevanten fairen Untersuchungen wurde tatsächlich erst Mitte der 1990er von einer Gruppe unabhängiger Forscher durchgeführt, aber sogar diese Arbeit wurde von den Auftraggebern unterdrückt.

Trotzdem wurde die Marktzulassung für Nachtkerzenöl als Behandlung von Ekzemen nur wenige Jahre später von der Medicines and Healthcare products Regulatory Agency (der medizinischen Zulassungs- und Aufsichtsbehörde für Arzneimittel in Großbritannien) zurückgezogen. Warum? Im Jahr 2002 schaffte es ein Review aller relevanten fairen Behandlungsvergleiche (insgesamt 20 veröffentlichter und unveröffentlichter Studien) zur Veröffentlichung: Die Schlussfolgerung war, dass es für den Nutzen von Nachtkerzenöl bei Ekzemen keine Evidenz gab.

Im Gegensatz zum vorherigen Fall der Frühgeborenen mit IRDS entstand aus der Verwendung von Nachtkerzenöl für die Behandlung von Ekzemen zwar kein Schaden, aber es wurden wertvolle Ressourcen verschwendet. Umfangreiche Forschung wurde betrieben, um die wirksamste Dosis zu bestimmen, mögliche Nebenwirkungen zu erkennen und das Potenzial ähnlicher pflanzlicher Produkte für die Behandlung des atopischen Ekzems zu untersuchen. Die Arbeit und das Geld, das in diese Forschung investiert wurde, hätten währenddessen für nützlichere Studien eingesetzt werden können, wären alle relevanten Behandlungsvergleiche früher berücksichtigt worden.

Was folgt daraus?

In unzähligen Fällen wurden nicht alle relevanten Behandlungsvergleiche berücksichtigt. Sie alle aufzuzählen, würde diesen Blog unendlich lang werden lassen; die wesentlichen Erkenntnisse aus all diesen Fällen lassen sich aber in ein paar Punkten zusammenfassen. Die Berücksichtigung aller relevanten fairen Behandlungsvergleiche ist deshalb so wichtig, weil damit:

• die Unsicherheit von Behandlungsergebnissen quantifiziert werden kann
• zuverlässigere und statistisch genauere Schätzungen der Behandlungseffekte möglich sind
• Patienten und Studienteilnehmer vor vermeidbarem Schaden geschützt werden
• Ressourcenverschwendung in der Forschung und bei der Gesundheitsversorgung verhindert wird.
• Um diese Probleme anzugehen, wurde das Netzwerk Evidenzbasierte Forschung (EBRNetwork.org) gegründet.

Text: Neelam Khan

Übersetzt von: Katharina Jones

Zum Originaltext
Quellen

Testing Treatments
Klicken Sie hier für weitere Materialien zum Thema, warum alle relevanten fairen Behandlungsvergleiche berücksichtigt werden sollten

Alle Teilnehmer sollten nachbeobachtet werden

Dies ist der 19. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (IHC) Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Dass Teilnehmer aus Studien ausscheiden oder nicht nachbeobachtet werden können ist in der Forschung nichts ungewöhnliches, kann jedoch zu verzerrten Einschätzungen der Wirkung von Behandlungen führen.

Es gibt viele Gründe, warum Teilnehmer aus Studien ausscheiden oder für die Nachbeobachtung ‚verloren gehen‘ („lost to follow-up“), das heißt, fehlen [1]. Zum Beispiel ist die Teilnahme an einer Studie häufig mit einem Zeitaufwand verbunden, den einige Teilnehmer wegen anderer alltäglicher Verpflichtungen nicht einhalten können. Oder das Studienteam verliert aus irgendeinem Grund Kontakt zu Studienteilnehmern.

Wann wird die fehlende Nachbeobachtung zum Problem?

Zum Problem werden fehlende Nachbeobachtungen, wenn viele Teilnehmer „verloren gehen“, besonders wenn der Anteil der fehlenden Teilnehmer zwischen den verschiedenen Behandlungsgruppen ungleich verteilt ist [2]. Wenn zum Beispiel 75 % der Teilnehmer aus einer Gruppe und nur 15 % der Teilnehmer aus einer Vergleichsgruppe bei der Nachbeobachtung fehlen, ist ein Vergleich der Ergebnisse der verbleibenden Teilnehmer in den beiden Gruppen kein fairer Vergleich mehr.

Nehmen wir einmal an, in einer Studie wird ein neues Medikament gegen Kopfschmerzen (das „Amustriptan“ heißt) mit einem herkömmlichen Medikament verglichen, um zu bewerten, ob das neue Medikament besser gegen Kopfschmerzen wirkt als das alte. Die Teilnehmer der Studie werden gebeten, noch vor der Injektion des Medikaments sowie eine Woche und einen Monat danach einen Fragebogen auszufüllen.

Acht Prozent der Patienten, die der Behandlung mit Amustriptan zugeteilt waren, haben den letzten Fragebogen nicht ausgefüllt (fehlten bei der Nachbeobachtung), im Vergleich zu nur einem Prozent der Patienten in der Gruppe mit dem alten Medikament. Die vorliegenden Ergebnisse deuten darauf hin, dass Patienten aus der Amustriptan-Gruppe nach einem Monat Behandlung im Vergleich zu den Patienten, die das herkömmliche Medikament bekommen haben, weniger Kopfschmerzen hatten. Was aber ist mit denen, die nicht nachbeobachtet werden konnten?

Irreführende Ergebnisse?

Möglicherweise haben die Patienten in der Amustriptan-Gruppe ihren Fragebogen nach einem Monat nicht ausgefüllt, weil bei ihnen die Anzahl der Kopfschmerzattacken gestiegen war, und zwar so stark, dass Sie den Fragebogen nicht ausfüllen konnten. Zum Zeitpunkt, als sie das hätten tun sollten, lagen sie mit Kopfschmerzen im Bett. In diesem Szenario lassen die fehlenden Nachbeobachtungen das neue Medikament viel besser aussehen, als es ist, da die Ergebnisse der nicht einbezogenen Teilnehmer negativ waren.

Das kann auch in die umgekehrte Richtung gehen. Die Teilnehmer in der Amustriptan-Gruppe könnten ausgeschieden sein, weil sie sich sehr viel besser fühlten. Womöglich hatten sie seit der Injektion überhaupt keine Kopfschmerzen mehr und haben sich daher entschieden, nicht länger an der Studie teilzunehmen. In diesem Falle lässt das Fehlen bei der Nachbeobachtungen das neue Medikament tatsächlich schlechter aussehen, als es ist, da die Ergebnisse der nicht einbezogenen Teilnehmer positiv waren.

Es gibt auch noch eine dritte Möglichkeit: Mitunter führen fehlende Nachbeobachtungen nicht zu irreführenden Ergebnissen [3]. Wenn in der Amustriptan-Gruppe zum Beispiel ein größerer Anteil von Teilnehmern für die Nachbeobachtung fehlten, weil der Studienkoordinator vergaß, einem zufälligen Teil der Teilnehmer den Fragebogen einen Monat nach der Injektion auszuhändigen, könnten die Ergebnisse immer noch gültig sein. Grund dafür ist, dass der Verlust für die Nachbeobachtung zufällig erfolgte und nicht auf einem Unterschied zwischen den ausgeschiedenen und den nicht ausgeschiedenen Teilnehmern beruht.

Verzerrungen durch Analysen entgegenwirken

Wissenschaftler können den Auswirkungen des Ausscheidens von Teilnehmern oder des Fehlens bei der Nachbeobachtung manchmal mit einer „Intention-to-treat-Analyse“ entgegenwirken. Das bedeutet ganz einfach, dass alle Teilnehmer, die an einer randomisierten Studie teilnahmen, in die Analyse einbezogen werden, unabhängig davon, was nach der Randomisierung (Zuteilung der Teilnehmer in Studiengruppen nach dem Zufallsprinzip) passiert ist [4].

Wie sich zeigt, ist die Thematik fehlender Nachbeobachtungen gar nicht so einfach, wie es zunächst aussieht. Manchmal sind Ergebnisse aufgrund fehlender Nachbeobachtungen scheinbar schlechter, manchmal scheinbar besser und manchmal entstehen dadurch gar keine Verzerrungen. Intention-to-treat-Analysen sind ein nützliches Werkzeug für Wissenschaftler, um Verzerrungen im Zusammenhang mit fehlenden Nachbeobachtungen zu minimieren.

Nach einer Faustregel führt ein hoher Anteil von Teilnehmern, die aus einer Studie ausscheiden, in der Regel zu einer Verzerrung der Ergebnisse [2]. Ist der Anteil dagegen gering, sind die Gründe für das Ausscheiden der Teilnehmer entscheidend dafür herauszufinden, inwiefern die Ergebnisse beeinflusst worden sind und ob die Schlussfolgerungen aus ihnen verlässlich sind [3].

Text: Ed Walsh

Übersetzt von: Katharina Jones

Zum Originaltext

Referenzen

Klicken Sie hier für weitere Materialien zum Thema, warum alle Teilnehmer nachbeobachtet werden sollten.