Scheinstatistik – stellt die Wahrheit in den Schatten

Aus Fehlern lernt man, besagt eine alte Weisheit. Stimmt das auch, wenn man die Fehler nicht selbst macht? Wir glauben schon. Immerhin hat schon der österreichische Philosoph Karl Popper das Grundprinzip seiner Wissenschaftstheorie als trial and error bezeichnet − also aus den Fehlversuchen zu lernen. Im folgenden Beitrag geht der Statistiker Erich Kvas auf einige der häufigsten Statistik-fehler ein.

Gewusst wie bzw. wie nicht

Bei statistischen Auswertungen kann es passieren, dass WissenschaftlerInnen sich falsch entscheiden und früher oder später in einem ausgetrockneten Flussbett anstatt an der Quelle der Erkenntnis ankommen. Manche entscheiden sich sogar bewusst für die falsche Methode, weil ihre Interessen nicht hauptsächlich wissenschaftlicher Natur sind und sie statistische Methoden dazu missbrauchen, die Ergebnisse zu erzeugen, die sie erreichen möchten. Die richtige Anwendung der Methode ist also ausschlaggebend dafür, dass man zur Erkenntnis gelangt.

Häufige Fehler im Bereich Statistik hängen mit der falschen Anwendung der Methoden und der Fehlinterpretation von Auswertungen zusammen. Als AnwenderIn von Statistik aber auch als LeserIn von Studien ist es wichtig, diese zu erkennen. Hier ein paar Beispiele:

Der Prävalenzfehler:

Wie hoch ist die Wahrscheinlichkeit, dass eine Frau an Brustkrebs erkrankt ist, falls ihr Screening-Befund positiv ist? Wenn ein Screening-Test mit 90 % Wahrscheinlichkeit erkennen kann, ob eine Frau Brustkrebs hat oder nicht, so würde man annehmen, dass eine Frau mit einem positiven Befund höchst wahrscheinlich Brustkrebs hat. So einfach ist das aber nicht, denn die Prävalenz (Krankheitshäufigkeit) muss bei der Interpretation des Screening-Tests berücksichtigt werden. Die Prävalenz gibt an, wie viele Menschen einer bestimmten Gruppe von einer Krankheit betroffen sind. Wenn beispielsweise Brustkrebs in der gesamten Frauenpopulation nur mit einer Häufigkeit von 1 % auftritt, so ist die Frau in unserem Beispiel trotz positivem Befund nur mit einer geringen Wahrscheinlichkeit wirklich krank (< 10 %). Liegt die Prävalenz der Erkrankung jedoch bei 50 %, so ist die Frau mit dem positiven Befund höchstwahrscheinlich wirklich krank (90 %).

Der Prävalenzfehler führt dazu, dass wir Wahrscheinlichkeiten von Ereignissen falsch einschätzen, wenn wir vergessen, sie in den richtigen Bezugsrahmen zu stellen, also beispielsweise nicht beachten wie häufig eine Erkrankung generell in der Bevölkerung auftritt. Mehr zu diesem Thema gibt es hier: Positiv getestet und doch nicht krank? Alles eine Frage der Wahrscheinlichkeit.

Die Interpretation des p-Werts:

Werden in Studien zwei Interventionen miteinander verglichen, wird mit einem statistischen Test errechnet, ob die beobachteten Unterschiede zwischen den Studiengruppen zufällig oder nicht zufällig zustande gekommen sind. Mithilfe des p-Werts schätzt man ab, ob diese Grenze überschritten wurde. Bei einem p-Wert von 0,05 oder kleiner, spricht man von einem statistisch signifikanten Unterschied – also einem Unterschied zwischen den Gruppen, der nicht mehr durch den Zufall erklärt werden kann. Bei der Interpretation des p-Werts kommt es aber häufig zu Missverständnissen. Nehmen wir dieses Beispiel: eine Studie zeigt einen statistisch signifikanten Unterschied in der Wirksamkeit eines Medikaments gegenüber Placebo, weil der abschließende Test einen p-Wert von 0,01 erzeugt. Oft lautet die Interpretation dann: Die Wahrscheinlichkeit, dass das Medikament und Placebo ähnlich (un)wirksam sind (Nullhypothese), liegt nur bei 1 %. Woraus zu folgen scheint, dass das Medikament mit 99 % Wahrscheinlichkeit wirksamer ist als Placebo (Alternativhypothese).

Das ist nicht so. Ein p-Wert von 0,01 sagt aus, dass Unterschiede zwischen Medikament und Placebo wie in dieser Studie (oder noch größere) mit 1 % Wahrscheinlichkeit für Medikamente auftreten, die nicht besser wirken als Placebo. Das hört sich vielleicht ähnlich an, bedeutet aber ganz etwas anderes. Ein Hypothesentest kann nicht bestimmen wie wahrscheinlich die Nullhypothese oder die Alternative wahr ist.

Multiples Testen und p-Hacking:

Der häufig gewählte p-Wert von 0,05 deutet an, dass die Wahrscheinlichkeit dieses Stichprobenergebnis zu erhalten 5 % oder kleiner ist, vorausgesetzt die Nullhypothese (es gibt keinen Unterschied zwischen den Gruppen) ist wahr. Man hat also bei einem Signifikanztest immer auch ein kleines Risiko, fälschlicherweise einen Unterschied zwischen den Gruppen festzustellen, obwohl in Wirklichkeit keiner vorliegt. Dieser Fehler wird auch „Fehler erster Art“ genannt. Wenn wir beispielsweise nicht nur testen, ob sich zwei Medikamente unterschiedlich auf die Sterblichkeit auswirken, sondern auch ob es Unterschiede in Bezug auf andere Endpunkte wie Schmerzen, Lebensqualität, Nebenwirkungen usw. gibt und wir nicht berücksichtigen, dass wir im gleichen Datensatz mehrfach Tests durchführen, erhöht sich die Gefahr für einen Fehler erster Art. In anderen Worten, es wird wahrscheinlicher, dass wir fälschlicherweise einen Unterschied als statistisch signifikant identifizieren. Es gibt Methoden dieses mehrfache (multiple) Testen in der statistischen Analyse zu berücksichtigen. In manchen Studien wird diese erhöhte Fehlerwahrscheinlichkeit aber sogar bewusst ausgenützt, um die Ergebnisse zu erzeugen, die StudienautorInnen zeigen möchten. Man testet dann einfach ganz viele Endpunkte auf Unterschiede und betreibt sogenanntes p-Hacking. Dies resultiert darin, dass man allein durch Zufall statistisch signifikante Unterschiede findet. Johannes Bohannon und KollegInnen zeigten 2015 in einer Studie wie leicht p-Hacking funktioniert. Sie untersuchten bei 15 StudienteilnehmerInnen die Wirkung von Schokolade in Bezug auf sehr viele, nämlich 18 verschiedene Endpunkte (Gewicht, Cholesterin, Schlafqualität etc.). Sie korrigierten nicht für multiples Testen und hatten somit eine sehr große Chance einen signifikanten Unterschied bei einem der Endpunkte zu finden, auch wenn es in Wahrheit keinen gab. Und siehe da – es funktionierte: TeilnehmerInnen, die regelmäßig Schokolade aßen, hatten statistisch signifikant mehr Gewicht verloren.

Fallzahl und Power:

Die Fallzahl beschreibt die Anzahl an StudienteilnehmerInnen. Die Power, auch Teststärke genannt, beschreibt mit welcher Wahrscheinlichkeit ein Signifikanztest einen statistisch signifikanten Unterschied richtig erkennt, wenn tatsächlich ein Unterschied zwischen den Gruppen vorliegt. Nehmen wir folgendes Beispiel: eine Studie mit zwei Gruppen zu jeweils zehn PatientInnen zeigt keinen statistisch signifikanten Unterschied zwischen PatientInnen, die ein Medikament bekommen und jenen, die Placebo erhalten (p-Wert > 0.05). Können wir nun daraus schließen, dass das Medikament nicht wirkt? Bei so einer kleinen Studiengröße von gerade mal 10 PatientInnen pro Gruppe war die Studie underpowered, d.h. selbst wenn es zwischen Medikament und Placebo einen statistisch signifikanten Unterschied gibt, kann die Studie aufgrund der geringen Anzahl an StudienteilnehmerInnen einen Unterschied mit weniger als 20 % auch zeigen. Der wahre Effekt des Medikaments würde erst bei Fallzahlen ab 2×100 PatientInnen mit hoher Wahrscheinlichkeit signifikant auftreten. Denn in diesem Fall läge die Power bei über 90 % und die meisten Studien dieser Größenordnung würden statistisch signifikante Effekte zeigen, wenn es welche gibt (9 von 10 Studien).

Korrelation und Kausalität:

Manchmal treten zwei Sachverhalte gemeinsam auf, das muss aber nicht heißen, dass ihr Auftreten auch wirklich miteinander zusammenhängt. Wenn beispielsweise die Scheidungsrate in einem Land sich ähnlich wie der pro Kopf Margarineverbrauch entwickelt, können wir dann schließen, dass reduzierter Margarinekonsum das Scheidungsrisiko senkt oder eine Scheidung den Margarinekonsum erhöht? Wohl eher nicht. Man darf aus einem beobachteten Zusammenhang (Korrelation) zwischen zwei Faktoren nicht auf Kausalität, also eine Ursache-Wirkungsbeziehung schließen. Leider sind viele Korrelationen, die wir berechnen sogenannte Scheinkorrelationen. Erst wenn wir ausschließen können, dass keine Scheinkorrelation vorliegt, und das statistische Ergebnis inhaltlich erklären können, können wir vorsichtig annehmen, einen realen Zusammenhang beobachtet zu haben.

Kritisch sein

Als AnwenderIn von statistischen Methoden ist es wichtig, diese Fehlerquellen zu meiden und auch bei der Interpretation der statistischen Auswertungen zu berücksichtigen. Als LeserIn von Studien, ist es ebenfalls notwendig, diese statistischen Fehler zu kennen, da sie teilweise unbeabsichtigt, teilweise aber bewusst von AutorInnen eingebaut werden, um deren Wunschaussagen treffen zu können. Seien Sie also kritisch und prüfen Sie die Interpretationen und Schlussfolgerungen von Studien.

Cochrane Workshops zum Thema Statistik

Cochrane Österreich bietet 2018 einen eintägigen Workshop über häufige Statistikfehler und das Entlarven von Wissenschaftsbetrug, sowie zwei weitere aufeinander aufbauende zweitägige Statistikkurse an.
Cochrane Deutschland bietet 2018 einen Workshop zu „statistischen Auswertungen jenseits von RevMan – Metaanalysen mit R“ an.
Cochrane Schweiz bietet 2018 einen Workshop zu „Meta-analysis: Advanced methods using the Stata software” an.

Text: Erich Kvas

Diplom Ingenieur Erich Kvas ist ein österreichischer Statistiker und seit 1998 mit seiner Firma Hermesoft selbstständig. Zusätzlich unterrichtet er auf Universitäten und Fachhochschulen in Österreich und hält Statistik-Workshops für Cochrane Österreich ab.

0 Antworten

Hinterlassen Sie einen Kommentar

Wollen Sie an der Diskussion teilnehmen?
Feel free to contribute!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

* Die Checkbox für die Zustimmung zur Speicherung ist nach DSGVO zwingend.

Ich akzeptiere