Peer-Review und Veröffentlichung sind keine Garantie für zuverlässige Informationen

Dies ist der 22. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Warum Peer-Review? Der Peer-Review soll mögliche Probleme mit der wissenschaftlichen Qualität einer Veröffentlichung, etwa Fehler in der Statistik, Ungereimtheiten und fragwürdige Schlussfolgerungen, aufdecken.

Veröffentlichungen in Peer-Review-Zeitschriften werden von unabhängigen Experten* des gleichen Fachgebiets begutachtet. Ein Peer-Review kann sowohl vor als auch nach der Veröffentlichung stattfinden, wobei der Review vor der Veröffentlichung in der akademischen Welt als Standardverfahren gilt. Das Konzept der Peer-Reviews stammt bereits aus dem Jahr 1731, als die Royal Society of Edinburgh eine Mitteilung folgenden Inhalts verbreitete [1]:

„Schriftlich eingesandte Beiträge werden je nach Thematik an jene Mitglieder verteilt, die in der Materie am besten bewandert sind. Ihre Identität wird dem Autor nicht bekanntgegeben“.

Heute ist der Peer-Review zentraler Bestandteil der Qualitätskontrolle und wesentliche Grundlage eines funktionierenden Wissenschaftsbetriebs. Die Royal Society, nationale Akademie der Wissenschaften des Vereinigten Königreichs, bemerkt dazu nicht ohne Stolz [2]:

„Peer-Review ist für die Führung des Wissenschaftsbetriebs, was die Demokratie für die Führung des Landes ist“.

Wie funktioniert Peer-Review?

Peer-Reviews werden in den einzelnen Zeitschriften sehr unterschiedlich gehandhabt; ein allgemeingültiges Verfahren gibt es nicht. Eine Zusammenfassung des gängigen Vorgehens ist in Abbildung 1 dargestellt. Es gibt drei Hauptarten von Peer-Reviews, die von der Royal Society of Edinburgh beschrieben werden [3]:

1. Single-blind Review (Einfachblindgutachten)
Am häufigsten in medizinischen Fachzeitschriften: Autor und Institution sind dem Gutachter bekannt, Autoren gegenüber bleibt der Gutachter aber anonym

Beispiel: New England Journal of Medicine (NEJM)

2. Double-blind Review (Doppelblindgutachten)
Weder Autor noch Gutachter kennen einander, nur der Redakteur kennt deren Identität

Beispiel: Medical Journal of Australia (MJA)

3. Offener Review
Autoren und Gutachter kennen einander

Beispiel: British Medical Journal (BMJ)

Abbildung 1. Zusammenfassung des gängigen Verfahrens beim Peer-Review [4]

Kann es im Zusammenhang mit Peer-Reviews zu Verzerrungen (Bias) kommen?

Peer-Reviews sind keineswegs perfekt. Das Verfahren ist, wie das Meiste in der Forschung, anfällig für Bias. Evidenz ist nicht automatisch allein deswegen zuverlässig, weil sie aus einem Peer-Review-Artikel stammt.

Zum Beispiel gibt es Belege für eine oftmals schlechte Übereinstimmung der Beurteilungen zwischen verschiedenen Peer-Reviewern. So besteht ein erheblicher Bias gegen Manuskripte mit Forschungsergebnissen, die im Widerspruch zum theoretischen Standpunkt des Gutachters stehen [5]. Eine im Journal of General Internal Medicine vorgestellte Studie hat gezeigt, dass Gutachter bei ihren Empfehlungen zur Annahme oder Überarbeitung beziehungsweise der Ablehnung eines Manuskripts kaum häufiger übereinstimmten als man nach dem Zufallsprinzip erwarten würde; dennoch legen Herausgeber großen Wert auf die Empfehlungen von Gutachtern [6]. Darüber hinaus zeigte eine Studie, dass wissenschaftliche Aufsätze mithilfe zahlreicher öffentlicher Reviews nach der Veröffentlichung durch Leser besser begutachtet wurden, als durch eine kleine Gruppe von Experten [7].

Auch die Verzerrung durch Gutachterpräferenzen („Reviewer Bias“) im einfach verblindeten Peer-Review-Verfahren ist Gegenstand anhaltender Diskussionen. Wenn den Gutachtern die Identität der Verfasser bekannt ist, können nach Auffassung von Kritikern indirekter Bias gegen Frauen [8] und Autoren mit ausländischen Nachnamen oder von weniger renommierten Institutionen [9] auftreten. Aus diesem Grunde halten einige Forscher doppelt verblindete Peer-Reviews für das bessere Verfahren.

Ein anderer Einwand bezieht sich auf multidisziplinäre Artikel: Gutachter, die in allen entsprechenden Disziplinen bewandert sind, sind schwer zu finden. Die Behandlung mehrerer verschiedener Themen in einer einzelnen Studie ist meist ein Nachteil für die Autoren solcher Arbeiten [3].

Wenn der Peer-Review versagt – Beispiele aus der Vergangenheit

Unabhängig davon, welches Review-System verwendet wird oder welche potenziellen Verzerrungen es erzeugen könnte, besteht immer die Möglichkeit, dass größere oder kleinere Fehler übersehen werden:

1. Impfungen und Autismus

Hier geht es um den wohl bekanntesten jemals zurückgezogenen Zeitschriftenartikel der Wissenschaftsgeschichte. In The Lancet stellte Andrew Wakefield 1998 eine kleine Studie vor, die zu zeigen schien, dass MMR-Impfungen gegen Masern, Mumps und Röteln Autismus auslösen könnten. Wie sich herausstellte, wählte Wakefield aus nicht offengelegtem finanziellem Interesse selektiv Teilnehmer aus und manipulierte Diagnosen und Krankheitsgeschichten [11]. Wakefields Aufsatz führte dazu, dass sich weniger Menschen impfen ließen und dadurch zu einem Anstieg von Masern, Mumps und Röteln. Vermehrte schwere Krankheitsverläufe und einige Todesfälle waren die Folge.

2. Peer-Review im Test: Vorsätzliche Fehler

2008 platzierten Forscher in einem demnächst zu veröffentlichenden 600 Wörter langen Studienbericht des British Medical Journal vorsätzlich acht Fehler und verschickten ihn an 300 Gutachter [12]. Die mittlere Anzahl der entdeckten Fehler betrug zwei. Zwanzig Prozent der Gutachter fanden überhaupt keine Fehler. Übersehen wurden gravierende Fehler wie methodische Schwächen, unrichtige Datenberichterstattung, ungerechtfertigte Schlussfolgerungen ebenso wie geringfügige Fehler wie Auslassungen und unrichtige Datenberichterstattung [13].

3. COOPERATE-Studie

In der COOPERATE-Studie wurde die Therapie mit einem Angiotensin-Konversionsenzym-Hemmer und einem Angiotensin-II-Rezeptorblocker untersucht. Das Ergebnis war, dass eine Kombination beider Medikamente bei nicht-diabetischen Nierenerkrankungen besser wirkte als die Monotherapie [14]. Diese Studie wurde 2003 in The Lancet veröffentlicht und nach der Aufdeckung gravierender Mängel zurückgezogen. Im Gegensatz zu den Aussagen im Bericht war die Studie nie von einer Ethikkommission genehmigt worden, der Hauptautor hatte falsche Angaben über die Einholung der informierten Einwilligung gemacht, die Beteiligung eines Statistikers konnte nicht nachgewiesen werden, die Behandlung war nicht doppelt verblindet, da der Hauptautor das Zuteilungsschema kannte und die Kommission konnte die Echtheit des vom Hauptautor erstellten Datensatzes nicht feststellen [15].

Was können wir tun?

Man kann das Peer-Review-Verfahren zwar nicht gerade dafür verantwortlich machen, dass einige dieser Fehler übersehen wurden, beispielsweise die Datenmanipulation durch Wakefield oder die falschen Angaben des COOPERATE-Hauptautors über die Zustimmung der Ethikkommission. Dennoch konfrontieren diese Fälle uns mit der Tatsache, dass ein Peer-Review noch keine Garantie für Zuverlässigkeit ist. Einiges liegt außerhalb unserer Kontrolle, aber es gibt auch einiges, was wir tun können:

1. Den Artikel, insbesondere den Methodenteil, kritisch bewerten

Lesen Sie nicht nur den Abstract oder die wichtigsten Ergebnisse. Lesen Sie den Aufsatz von Anfang bis Ende durch, besonders den Methodenteil. Bewerten Sie den Aufsatz selbst, mithilfe anderer Blog-Artikel aus unserer „Schlüsselkonzepte“-Serie. Fragen Sie sich: Welche Merkmale könnten zu Verzerrungen führen? Und, genauso wichtig: Welche fehlenden Merkmale, die nicht erwähnt wurden, aber erwähnt werden sollten, könnten zu Verzerrungen führen?

Die kritische Bewertung und die Einschätzung des Verzerrungsrisikos sind Kompetenzen, die sich nicht über Nacht aneignen lassen. Eine Hilfe zur Vereinfachung und Strukturierung kritischer Bewertungen bieten Instrumente zur Bewertung von systematischen Übersichtsarbeiten („Critical Appraisal Tools“, CATs) oder Checklisten, wie z. B. vom Critical Appraisal Skills Programme (CASP) UK, Scottish Intercollegiate Guidelines Network (SIGN) oder dem Centre for Evidence-Based Medicine (CEBM). Auch die Leitlinien des EQUATOR network, die mit praktischen Checklisten für alle Studiendesigns eine akkurate und transparente Berichterstattung fördern, können eine nützliche Ressource sein. Die Autoren von Students 4 Best Evidence haben eine Liste dieser CATs und anderer international verbreiteter Hilfen zusammengetragen, die Sie unter diesem Link finden. Man sollte sich bewusst sein, dass diese Instrumente ebenfalls zu Verzerrungen führen können; dennoch sind sie ein guter Ausgangspunkt, wenn man sich näher mit der Bewertung von Evidenz beschäftigen will.

2. Eine gesunde Skepsis bewahren

Wir glauben nicht alles, was im Internet steht oder was im Fernsehen gezeigt wird. Dementsprechend sollten wir Informationen auch dann kritisch bewerten können, wenn sie in einer bedeutenden Fachzeitschrift wie NEJM oder Lancet veröffentlicht werden. Nicht das Ansehen der Zeitschrift zählt, sondern die Qualität des Textes – die Sie selbst einschätzen können. Wollen wir lieber einen funktionsfähigen Hyundai aus zweiter Hand oder einen Lamborghini ohne Räder? Vielleicht sollte der Satz lauten: Beurteile einen wissenschaftlichen Aufsatz nicht nach der Zeitschrift, in der er steht.

Fazit

Redaktionelles Peer-Review bleibt ein Eckpfeiler der wissenschaftlichen medizinischen Forschung [16] und fördert nach allgemeiner Auffassung eine bessere Qualität von Forschungsberichten. Untersuchungen zur Qualität medizinischer Forschungsberichte verdeutlichen allerdings, dass der Peer-Review keine Garantie für eine adäquate Berichterstattung von Forschungsergebnissen ist. Cochrane-Reviews der Forschung zur Effektivität von Peer-Reviews zeigen außerdem, dass das Verfahren nicht die Ergebnisse liefert, die ihm gemeinhin zugeschrieben werden. Wir sollten Aufsätze deshalb selbst kritisch bewerten. Das erhöht die Chance, Fehler aufzuspüren, die beim Peer-Review-Verfahren übersehen wurden.

Text: Dennis Neuen

Übersetzt von: Katharina Jones

Zum Originaltext

Quellen

*Aus Gründen der besseren Lesbarkeit wird auf die gleichzeitige Verwendung männlicher und weiblicher Sprachformen verzichtet. Sämtliche Personenbezeichnungen gelten gleichermaßen für alle Geschlechter.

Übersichtsarbeiten zu fairen Behandlungsvergleichen sollten systematisch sein

Dies ist der 21. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Wenn es um die bestmögliche Behandlung geht, sollten wir nach Reviews suchen, welche die verfügbare Evidenz möglichst vollständig und systematisch zusammenfassen, und zwar aus folgendem Grund:
Angenommen, eine neue, spannende einzelne Studie behauptet, dass sich mit einem neuen Medikament („Medikament A“) die Erkrankung B wirksam behandeln lässt. Sind die Ergebnisse dieser einen Studie dann uneingeschränkt verlässlich?

Nein. Weiterlesen

2.8 Alle relevanten und fairen Behandlungsvergleiche müssen berücksichtigt werden

Dies ist der 20. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (IHC) Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

In Blog 2.1 haben wir bereits die Bedeutung fairer Behandlungsvergleiche festgestellt. Jetzt wollen wir uns ein paar Gedanken dazu machen, wie viele Behandlungsvergleiche berücksichtigt werden sollten.

Man kann sich natürlich leicht vorstellen, dass jeder relevante, faire Vergleich von Behandlungen einbezogen werden sollte – aber warum? In diesem Blog wird untersucht, wie wichtig es ist, alle relevanten fairen Behandlungsvergleiche zu berücksichtigen und was folgen kann, wenn das nicht passiert.

Sowohl Quantität als auch Qualität

Würden Sie von einem Arzt erwarten, dass er ein Medikament auf Basis einer einzigen, das Medikament als wirksam beschreibenden Studie verschreibt? Wohl kaum! Eine einzelne Studie wird wahrscheinlich keine unwiderlegbare Evidenz für eine Behandlung erbringen, unabhängig davon, wie sorgfältig sie durchgeführt wurde. Genauso wenig können aus einem einzigen Vergleich zweier oder mehrerer Behandlungen Schlussfolgerungen gezogen werden, denn die Ergebnisse können irreführend sein, weil sie dem Zufall geschuldet sein können.

Das trifft besonders auf kleine Studien zu, in denen wenige Behandlungsergebnisse beobachtet wurden. Die Zusammenfassung von Ergebnisdaten, zum Beispiel in Form einer Metaanalyse, ermöglicht uns die Durchführung statistischer Tests und die Bestimmung von Konfidenzintervallen unter Verwendung der gesamten verfügbaren relevanten Evidenz. Im Kern erleichtert es die Ermittlung der Wahrscheinlichkeit, mit der Behandlungswirkungen zufällig zustande gekommen sind, und bewahrt uns vor dem falschen Schluss, dass es zwischen zwei Behandlungen einen statistisch signifikanten Unterschied gibt bzw. nicht gibt.

Durch die Berücksichtigung aller relevanten fairen Behandlungsvergleiche können mehr Daten zu den betreffenden Behandlungen gewonnen werden. In der Praxis bedeutet das, dass Forscher und Ärzte die wahrscheinlichen Effekte einer Behandlung genauer und zuverlässiger einschätzen können, sei es durch Informationen zur wirksamsten Dosierung, zu häufigen Nebenwirkungen oder zur wahrscheinlichen Erfolgsquote.

Was sind die Folgen, wenn nur die „passenden“ Behandlungsvergleiche herangezogen werden?

Nicht alle relevanten fairen Behandlungsvergleiche zu berücksichtigen, kann schwerwiegende Folgen haben. Es kann bedeuten, dass Studienteilnehmer und Patienten Behandlungen erhalten, die ihnen womöglich schaden, oder dass ihnen nützliche Behandlungen vorenthalten werden.

Das trifft zum Beispiel auf die vielen schwangeren Frauen zu, die in den 1980er und 90er Jahren Frühgeburten hatten. Frühgeborene kommen oft mit nicht vollentwickelter Lunge oder anderen nicht ausgereiften Organen zur Welt. Eine mögliche Folge davon ist das Atemnotsyndrom des Frühgeborenen (infant respiratory distress syndrome, IRDS), das tödlich verlaufen kann.

In den 1980er Jahren ergab sich immer mehr überzeugende Evidenz für eine Abnahme von IRDS und der Säuglingssterblichkeit durch die Verabreichung von Kortikosteroiden an Schwangere, bei denen mit einer Frühgeburt zu rechnen war. Nichtsdestotrotz wurden in den folgenden zehn Jahren weitere Studien durchgeführt, in denen einige Teilnehmerinnen ein Placebo oder keine Behandlung erhielten. In einigen Fällen bezahlten die Neugeborenen das mit dem Leben.

Natürlich wollten die Forscher die Teilnehmerinnen nicht absichtlich schädigen, und sicherlich untersuchten sie nur eine ihrer Überzeugung nach berechtigte Frage mit dem Ziel, die Lebensqualität vieler Patientinnen zu verbessern. Diese Forschung als „schlecht“ zu bezeichnen wäre nicht fair; „unnötig“ trifft es vielleicht besser. Wären die Daten aus allen relevanten fairen Behandlungsvergleichen früher statistisch zusammengefasst worden (d. h. in einem systematischen Review mit einer Metaanalyse), wäre offenkundig geworden, dass weitere Studien sowohl unbegründet als auch unethisch wären. Die Berücksichtigung aller relevanten fairen Behandlungsvergleiche kann also helfen, Patienten und Studienteilnehmer vor vermeidbarem Schaden zu schützen.

Noch mehr unnötige Forschung

Das Beispiel oben ist eine drastische Veranschaulichung dessen, was passieren kann, wenn nicht alle relevanten Behandlungsvergleiche berücksichtigt werden. Es gibt aber auch nicht so gravierende Beispiele, von denen wir lernen können.

Nachtkerzenöl wurde in den frühen 1980er Jahren als sichere und wirksame Behandlung für Ekzeme beworben. Hinter der Behauptung steckte eine gewisse Logik: Nachtkerzenöl enthält die essenzielle Fettsäure Gamma-Linolensäure (GLA), von dem angenommen wird, dass es bei einem atopischen Ekzem nicht ausreichend vorhanden ist.

Daraufhin wurden mehrere Studien durchgeführt, die zu widersprüchlichen Ergebnissen führten. Bedenklich war, dass ein Großteil der veröffentlichten Studien von Herstellern des Nachtkerzenöls gesponsert wurde. Selbst in einer 1989 durchgeführten Metaanalyse der Studien zur Beurteilung der Wirksamkeit des Nachtkerzenöls bei atopischen Ekzemen wurde eine große Studie ausgelassen, die keinerlei Unterschied zwischen Nachtkerzenöl und einem Placebo gefunden hatte. Ein Vergleich aller relevanten fairen Untersuchungen wurde tatsächlich erst Mitte der 1990er von einer Gruppe unabhängiger Forscher durchgeführt, aber sogar diese Arbeit wurde von den Auftraggebern unterdrückt.

Trotzdem wurde die Marktzulassung für Nachtkerzenöl als Behandlung von Ekzemen nur wenige Jahre später von der Medicines and Healthcare products Regulatory Agency (der medizinischen Zulassungs- und Aufsichtsbehörde für Arzneimittel in Großbritannien) zurückgezogen. Warum? Im Jahr 2002 schaffte es ein Review aller relevanten fairen Behandlungsvergleiche (insgesamt 20 veröffentlichter und unveröffentlichter Studien) zur Veröffentlichung: Die Schlussfolgerung war, dass es für den Nutzen von Nachtkerzenöl bei Ekzemen keine Evidenz gab.

Im Gegensatz zum vorherigen Fall der Frühgeborenen mit IRDS entstand aus der Verwendung von Nachtkerzenöl für die Behandlung von Ekzemen zwar kein Schaden, aber es wurden wertvolle Ressourcen verschwendet. Umfangreiche Forschung wurde betrieben, um die wirksamste Dosis zu bestimmen, mögliche Nebenwirkungen zu erkennen und das Potenzial ähnlicher pflanzlicher Produkte für die Behandlung des atopischen Ekzems zu untersuchen. Die Arbeit und das Geld, das in diese Forschung investiert wurde, hätten währenddessen für nützlichere Studien eingesetzt werden können, wären alle relevanten Behandlungsvergleiche früher berücksichtigt worden.

Was folgt daraus?

In unzähligen Fällen wurden nicht alle relevanten Behandlungsvergleiche berücksichtigt. Sie alle aufzuzählen, würde diesen Blog unendlich lang werden lassen; die wesentlichen Erkenntnisse aus all diesen Fällen lassen sich aber in ein paar Punkten zusammenfassen. Die Berücksichtigung aller relevanten fairen Behandlungsvergleiche ist deshalb so wichtig, weil damit:

• die Unsicherheit von Behandlungsergebnissen quantifiziert werden kann
• zuverlässigere und statistisch genauere Schätzungen der Behandlungseffekte möglich sind
• Patienten und Studienteilnehmer vor vermeidbarem Schaden geschützt werden
• Ressourcenverschwendung in der Forschung und bei der Gesundheitsversorgung verhindert wird.
• Um diese Probleme anzugehen, wurde das Netzwerk Evidenzbasierte Forschung (EBRNetwork.org) gegründet.

Text: Neelam Khan

Übersetzt von: Katharina Jones

Zum Originaltext
Quellen

Testing Treatments
Klicken Sie hier für weitere Materialien zum Thema, warum alle relevanten fairen Behandlungsvergleiche berücksichtigt werden sollten

Alle Teilnehmer sollten nachbeobachtet werden

Dies ist der 19. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (IHC) Projektes erarbeitet wurden. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Dass Teilnehmer aus Studien ausscheiden oder nicht nachbeobachtet werden können ist in der Forschung nichts ungewöhnliches, kann jedoch zu verzerrten Einschätzungen der Wirkung von Behandlungen führen.

Es gibt viele Gründe, warum Teilnehmer aus Studien ausscheiden oder für die Nachbeobachtung ‚verloren gehen‘ („lost to follow-up“), das heißt, fehlen [1]. Zum Beispiel ist die Teilnahme an einer Studie häufig mit einem Zeitaufwand verbunden, den einige Teilnehmer wegen anderer alltäglicher Verpflichtungen nicht einhalten können. Oder das Studienteam verliert aus irgendeinem Grund Kontakt zu Studienteilnehmern.

Wann wird die fehlende Nachbeobachtung zum Problem?

Zum Problem werden fehlende Nachbeobachtungen, wenn viele Teilnehmer „verloren gehen“, besonders wenn der Anteil der fehlenden Teilnehmer zwischen den verschiedenen Behandlungsgruppen ungleich verteilt ist [2]. Wenn zum Beispiel 75 % der Teilnehmer aus einer Gruppe und nur 15 % der Teilnehmer aus einer Vergleichsgruppe bei der Nachbeobachtung fehlen, ist ein Vergleich der Ergebnisse der verbleibenden Teilnehmer in den beiden Gruppen kein fairer Vergleich mehr.

Nehmen wir einmal an, in einer Studie wird ein neues Medikament gegen Kopfschmerzen (das „Amustriptan“ heißt) mit einem herkömmlichen Medikament verglichen, um zu bewerten, ob das neue Medikament besser gegen Kopfschmerzen wirkt als das alte. Die Teilnehmer der Studie werden gebeten, noch vor der Injektion des Medikaments sowie eine Woche und einen Monat danach einen Fragebogen auszufüllen.

Acht Prozent der Patienten, die der Behandlung mit Amustriptan zugeteilt waren, haben den letzten Fragebogen nicht ausgefüllt (fehlten bei der Nachbeobachtung), im Vergleich zu nur einem Prozent der Patienten in der Gruppe mit dem alten Medikament. Die vorliegenden Ergebnisse deuten darauf hin, dass Patienten aus der Amustriptan-Gruppe nach einem Monat Behandlung im Vergleich zu den Patienten, die das herkömmliche Medikament bekommen haben, weniger Kopfschmerzen hatten. Was aber ist mit denen, die nicht nachbeobachtet werden konnten?

Irreführende Ergebnisse?

Möglicherweise haben die Patienten in der Amustriptan-Gruppe ihren Fragebogen nach einem Monat nicht ausgefüllt, weil bei ihnen die Anzahl der Kopfschmerzattacken gestiegen war, und zwar so stark, dass Sie den Fragebogen nicht ausfüllen konnten. Zum Zeitpunkt, als sie das hätten tun sollten, lagen sie mit Kopfschmerzen im Bett. In diesem Szenario lassen die fehlenden Nachbeobachtungen das neue Medikament viel besser aussehen, als es ist, da die Ergebnisse der nicht einbezogenen Teilnehmer negativ waren.

Das kann auch in die umgekehrte Richtung gehen. Die Teilnehmer in der Amustriptan-Gruppe könnten ausgeschieden sein, weil sie sich sehr viel besser fühlten. Womöglich hatten sie seit der Injektion überhaupt keine Kopfschmerzen mehr und haben sich daher entschieden, nicht länger an der Studie teilzunehmen. In diesem Falle lässt das Fehlen bei der Nachbeobachtungen das neue Medikament tatsächlich schlechter aussehen, als es ist, da die Ergebnisse der nicht einbezogenen Teilnehmer positiv waren.

Es gibt auch noch eine dritte Möglichkeit: Mitunter führen fehlende Nachbeobachtungen nicht zu irreführenden Ergebnissen [3]. Wenn in der Amustriptan-Gruppe zum Beispiel ein größerer Anteil von Teilnehmern für die Nachbeobachtung fehlten, weil der Studienkoordinator vergaß, einem zufälligen Teil der Teilnehmer den Fragebogen einen Monat nach der Injektion auszuhändigen, könnten die Ergebnisse immer noch gültig sein. Grund dafür ist, dass der Verlust für die Nachbeobachtung zufällig erfolgte und nicht auf einem Unterschied zwischen den ausgeschiedenen und den nicht ausgeschiedenen Teilnehmern beruht.

Verzerrungen durch Analysen entgegenwirken

Wissenschaftler können den Auswirkungen des Ausscheidens von Teilnehmern oder des Fehlens bei der Nachbeobachtung manchmal mit einer „Intention-to-treat-Analyse“ entgegenwirken. Das bedeutet ganz einfach, dass alle Teilnehmer, die an einer randomisierten Studie teilnahmen, in die Analyse einbezogen werden, unabhängig davon, was nach der Randomisierung (Zuteilung der Teilnehmer in Studiengruppen nach dem Zufallsprinzip) passiert ist [4].

Wie sich zeigt, ist die Thematik fehlender Nachbeobachtungen gar nicht so einfach, wie es zunächst aussieht. Manchmal sind Ergebnisse aufgrund fehlender Nachbeobachtungen scheinbar schlechter, manchmal scheinbar besser und manchmal entstehen dadurch gar keine Verzerrungen. Intention-to-treat-Analysen sind ein nützliches Werkzeug für Wissenschaftler, um Verzerrungen im Zusammenhang mit fehlenden Nachbeobachtungen zu minimieren.

Nach einer Faustregel führt ein hoher Anteil von Teilnehmern, die aus einer Studie ausscheiden, in der Regel zu einer Verzerrung der Ergebnisse [2]. Ist der Anteil dagegen gering, sind die Gründe für das Ausscheiden der Teilnehmer entscheidend dafür herauszufinden, inwiefern die Ergebnisse beeinflusst worden sind und ob die Schlussfolgerungen aus ihnen verlässlich sind [3].

Text: Ed Walsh

Übersetzt von: Katharina Jones

Zum Originaltext

Referenzen

Klicken Sie hier für weitere Materialien zum Thema, warum alle Teilnehmer nachbeobachtet werden sollten.

 

Alle Ergebnisse von Teilnehmern einer Vergleichsstudie sollten auf dieselbe Weise ermittelt werden

Dies ist der 18. Beitrag einer Blogserie zu einer Zusammenstellung von „Schlüsselkonzepten zur besseren Bewertung von Aussagen zu Behandlungen“, die im Rahmen des Informed Health Choices (ICH) Projektes erarbeitet wurde. Jeder der insgesamt 36 Blogbeiträge befasst sich mit einem der Schlüsselkonzepte, die als wichtig dafür erachtet werden, Aussagen zu Wirkungen von Behandlungen besser verstehen und einordnen zu können.

Viele, die sich mit klinischer Forschung beschäftigen, kennen das Konzept der „Verblindung“: Ein Patient, der eine Behandlung erhält, oder ein Arzt (oder andere Person), die die Behandlung durchführt, haben keine Kenntnis davon, welche Behandlung der Patient bekommen bzw. der Arzt verabreicht hat. Reicht das aber aus, um einem ‚Beobachter-Bias‘ (der Verzerrung bzw. Verfälschung von Studienergebnissen durch die bewusste oder unbewusste Beeinflussung des Untersuchers aufgrund seiner Kenntnis der Zuteilung) vorzubeugen?

Schauen wir uns einmal folgendes Szenario an: In einer randomisierten Studie wird die Wirksamkeit von Morphium im Vergleich zu einem anderen Schmerzmittel zur Behandlung akuter Schmerzen untersucht. Die Patienten wissen nicht, welches Medikament sie einnehmen, und die Ärzte, die die Behandlung verabreichen, wissen es auch nicht: Sie nehmen einfach die Tabletten anhand der Patientennummer aus einer hierfür bestimmten Schachtel und geben sie an die Patienten aus. Das Risiko einer Verzerrung sollte in diesem Fall minimal sein, oder? Weiterlesen