Einfach ignorieren!
Dieser Artikel ist älter als ein Jahr!
Schokolade macht schlank! Wer hätte das gedacht? Aber die Zahlen sind eindeutig: Man hat Versuchspersonen für drei Wochen eine kohlenhydratarme Diät verordnet – eine Gruppe hatte außerdem den Auftrag, täglich einen Schokoriegel zu essen. Und siehe da: Die Schoko-Gruppe verlor mehr Gewicht als die schokoladenlose Gruppe. Ein glorreicher Triumph für die Schokolade, und eine tolle Story, die es rund um den Erdball auf die Titelseiten schaffte.
Wenn in der Wissenschaft solche Studienergebnisse präsentiert werden, lautet die allererste Frage: Ist das Ergebnis statistisch signifikant? Unterschiede zwischen zwei Gruppen findet man immer – eine wird im Durchschnitt ein bisschen höheren Blutdruck haben, eine wird im Durchschnitt größere Schuhe tragen, eine wird mehr Gewicht abnehmen als die andere. Das ist unvermeidlich. Die Frage ist, ob diese Unterschiede durch bloßen Zufall zu erklären sind, oder ob sie das Resultat eines echten, ursächlichen Zusammenhangs sind.
Das lässt sich statistisch ausrechnen – man spricht von „statistischer Signifikanz“, wenn die Wahrscheinlichkeit gering ist, dass ein solcher Unterschied zwischen den beiden Gruppen rein zufällig entsteht, ohne zugrundeliegende kausale Ursache.
Bei der Schokoladenstudie war die Sache eindeutig: Rechnerisch waren die Ergebnisse statistisch signifikant. Ist damit also nun mathematisch bewiesen, dass Schokolade beim Abnehmen hilft? Nein, noch lange nicht!
Signifikanz: Kalkulierter Unfug
Die Geschichte von der Schlankheits-Schokolade war purer Unfug. Es handelte sich um ein Medienexperiment von Journalisten, die auf das Problem schlechter Berichterstattung über schlechte Studien aufmerksam machen wollten. Man hatte bewusst eine miserable Studie durchgeführt, mit einer viel zu geringen Anzahl von Teilnehmern und einem lächerlich kurzen Beobachtungszeitraum, um festzustellen, ob die Medien das unhinterfragt wiedergeben würden.
Gemessen wurde eine ganze Reihe von Parametern – nicht nur das Gewicht, sondern auch verschiedene Blutwerte, das allgemeine Wohlbefinden und einige andere. Bei jedem einzelnen Wert ist die Wahrscheinlichkeit, durch bloßen Zufall einen großen Unterschied zwischen den beiden Gruppen zu finden, zwar recht gering, aber wenn man ausreichend viele Werte untersucht, wird man irgendwann einen Unterschied feststellen, der statistisch signifikant aussieht. Darüber kann man dann begeistert berichten, über alles andere schweigt man eben.
Gute Studien: Ehrlich oder geschummelt?
Wenn ein Ergebnis statistisch signifikant ist, hat die Studie also bloß die allererste Hürde genommen. Man muss auch noch die Frage stellen: Ist die Studie gut gemacht? Misst sie wirklich das, was sie messen soll – oder wird hier nur ein Ergebnis herausgepickt, das den Autoren zufällig gefallen hat?
Solche schmutzigen Tricks sind recht häufig. Angenommen, ich möchte beweisen, dass Rotwein das Krebsrisiko senkt. Ich habe zwei Gruppen – eine Rotweintrinkergruppe und eine, die keinen Rotwein trinkt. Einen statistisch signifikanten Unterschied in der Krebshäufigkeit finde ich ärgerlicherweise nicht. Ich kann allerdings die Daten in unterschiedliche Arten von Krebs aufdröseln – von Leukämie über Magenkarzinome bis Lungenkrebs. Dann habe ich plötzlich viel mehr Möglichkeiten, zufällig Unterschiede zwischen den beiden Gruppen zu finden. Wenn ich lange genug suche, werde ich garantiert einen Krebs finden, der in der Rotwein-Gruppe deutlich seltener auftritt. (Und vermutlich einen anderen, der in dieser Gruppe häufiger auftritt – aber das muss ich ja nicht in meine Pressemeldung schreiben.)
Außerdem heißt ein statistischer Zusammenhang noch lange nicht, dass das eine die Ursache des anderen ist. Vielleicht trinken reichere Leute mehr Rotwein und können sich gleichzeitig eine bessere Gesundheitsversorgung leisten? Solche Störfaktoren müssen in einer guten Studie berücksichtigt sein.
Klinische Relevanz: Bringt es überhaupt etwas?
Doch auch wenn eine Studie statistisch hochsignifikante Ergebnisse liefert und gut gemacht ist, kann es immer noch sein, dass man sie besser ignorieren sollte. Es gibt nämlich noch eine dritte Frage, die man stellen muss – und das wird oft vergessen: Ist das Ergebnis klinisch relevant? Ist der Effekt groß genug, dass es sich überhaupt lohnt über ihn nachzudenken?
Angenommen, wir entwickeln ein Medikament, das die Krankheitsdauer einer Grippeinfektion verkürzt – von durchschnittlich vierzehn Tagen auf dreizehn Tage und sechzehn Stunden. Angenommen, unsere Studie ist so gut, dass wir diesen Effekt zweifelsfrei nachweisen können, obwohl er so klein ist. Würden Ärzte dieses Medikament dann mit Begeisterung weiterempfehlen? Vermutlich nicht. Die Patienten werden die Wirkung – auch wenn sie tatsächlich da sein mag – nämlich gar nicht wirklich bemerken.
In diese Falle tappen wir oft – nicht nur bei erfreulichen Wirkungen, sondern noch viel öfter bei Panikmeldungen über Gefahren: Ist das Acrylamid in Pommes ungesund? Ja, ein bisschen schon. Aber ist das relevant? Sollte man davor Angst haben, wenn man sich über die vierzehn Zigaretten, die man täglich raucht, keine Sorgen macht? Erhöhen Aluminiumsalze im Deo die Krebsgefahr? Vermutlich nicht – aber selbst wenn die warnenden Stimmen Recht hätten, wäre der Effekt so klein, dass hundert andere Entscheidungen, die wir täglich treffen, eine größere Auswirkung auf unsere Gesundheit hätten. Verursachen Buntstifte Krebs? Ja, vielleicht, wenn man sehr viele davon isst. Aber in jedem einigermaßen realistischen Szenario des täglichen Lebens ist das völlig gleichgültig.
Statistik alleine reicht also nicht. Nur weil irgendwo „statistisch signifikant“ in der Zeitung steht, sollen wir uns noch lange nicht beeindrucken lassen. Wir müssen auch immer überlegen, wie groß ein Effekt ist, ob er von anderen Effekten überlagert wird, wie er mit anderen Effekten zusammenhängt. Nur dann können wir entscheiden, wovor wir Angst haben sollen, und was wir getrost ignorieren können.
Florian Aigner ist Physiker und Wissenschaftserklärer. Er beschäftigt sich nicht nur mit spannenden Themen der Naturwissenschaft, sondern oft auch mit Esoterik und Aberglauben, die sich so gerne als Wissenschaft tarnen. Über Wissenschaft, Blödsinn und den Unterschied zwischen diesen beiden Bereichen schreibt er jeden zweiten Dienstag in der futurezone.
Kommentare