Der digitale Zwilling und andere Wundertüten der Nutzenbewertung

Prof. Dr. med. Jürgen Windeler, Leiter des Instituts für Qualität und Wirtschaftlichkeit im Gesundheitswesen (IQWiG)

Ein Flugzeug sollte sinnvollerweise Flügel haben, ein Wagen Räder, und um Löcher in Wände zu bohren, nimmt man am besten geeignetes Werkzeug – es sei denn, man sitzt im Gefängnis und hat viel Zeit.

Daher ist es doch eigentlich erstaunlich: Es gibt für ein spezifisches Problem ein theoretisch überragendes, praktisch eindrucksvoll überzeugendes Werkzeug. Für den Gebrauch des Werkzeugs wurde 2019 ein Nobelpreis verliehen (dazu unten mehr). Dieses Werkzeug könnte propagiert, gefördert, in seiner Ausgestaltung optimiert, also im allerbesten Sinne wertgeschätzt werden. Stattdessen wird die Anwendung dieses Werkzeugs mit sehr fragwürdigen Argumenten als ungeeignet und nicht praktikabel diskreditiert. Und so ist die Faszination, Nutzenaussagen ohne das geeignete Werkzeug vergleichender, am besten randomisierter Studien machen zu wollen, in Teilen der wissenschaftlichen Welt ungebrochen. Dass damit auch weitreichende Geschäftsinteressen verbunden sind, soll hier nicht im Vordergrund stehen.

 

Konzept der Randomisierung nicht zu toppen

Das geht so seit Jahrzehnten und führt zu stetigen Déjà-Vues. Die immer gleichen falschen Argumente zu Problemen und Defiziten, variationsreiche Vorschläge zu alternativen Methoden, die aber am Ende explizit oder implizit zu dem immer gleichen Ergebnis führen: Die Nicht-Anwendung der Randomisierung führt zu erheblichem Aufwand, bei – trotzdem – unsichereren Ergebnissen. Das Konzept der Randomisierung ist halt nicht zu toppen, und der Verzicht auf dieses Vorgehen auf jeden Fall eines: ineffizient.

In einer der Arbeiten, die dem Autor bereits vor 35 Jahren in den Anfängen seiner methodischen Laufbahn begegnet sind, ist denn auch zu lesen: „Trotz größter Sorgfalt wird ein letztlich überzeugender Nachweis insbesondere der Strukturgleichheit nicht erreichbar sein.“ (1) Und selbst in hochklassigen Studien auf der Basis von Registern (2, 3) wird ganz am Ende gefolgert, dass dem Ergebnis eigentlich nicht zu trauen ist und es nun in RCT überprüft werden müsse. Warum dann nicht gleich so? Natürlich ist die Sachlage auch vielen Protagonisten klar, und daher meint man, in taktischem Rückzug darauf hinweisen zu sollen, dass non-RCTs die RCTs „nicht ersetzen, sondern nur ergänzen“ sollen. Das mag durchaus interessant sein, aber worin diese Ergänzung genau bestehen soll, bleibt meist nebulös.

Für spezielle Konstellationen über Ersatzlösungen nachzudenken ist sinnvoll, und in solchen besonderen Situationen die höhere Unsicherheit in Kauf zu nehmen, mag vertretbar sein. So sind z. B. die Zelen-Designs oder n-of-1-Trials aus Problemen in bestimmten Anwendungssituationen oder zu sehr speziellen Fragen entstanden. Sie sind gewissermaßen als Wunderkerzen anzusehen: faszinierend, für bestimmte Zwecke brauchbar, aber nur von eingeschränkter Licht- und Wärmeleistung.

Anders sind dagegen die Wundertüten zu sehen, die sich auf den methodischen Markt drängen. Sie werden in bunt schillernden Verpackungen und mit blumigen Versprechen präsentiert, mit leuchtenden Augen ausgepackt – und zeigen dann doch nur ihre enttäuschenden Inhalte. Nieten, immer und immer wieder.

Das zweifelhafte Verdienst, den Startschuss für diese Serie der Frustrationen gegeben zu haben, gebührt dem amerikanischen Kongress. 1989 beschloss er, dass man die Frage, ob denn die Maßnahmen der Krankenversorgung eigentlich etwas nützten, vielleicht auch mit den vorhandenen Daten der Krankenversicherung beantworten könnte. Man stellte Geld bereit, Scharen von Forschern machten sich auf den Weg. „Patient Outcomes Research“ war geboren. „(They) had a dream that everybody’s claim would be in this big computer and the answers will be all there“ (4). Fünf Jahre und 200 Millionen Dollar später schien der Traum zu Ende. Der Output der Bemühungen war äußerst dürftig. Oder, wie es kein geringerer als Richard Peto auf den Punkt brachte: „It has utterly, totally, and predictably failed …“ – wobei vielleicht „vorhersehbar“ das wichtigste Wort war.

Der Patient schien tot, und so wunderte sich der Autor, als er Mitte 1998 eine Vortragseinladung an eine süddeutsche Universität erhielt und sich über „Outcomes Research“ auslassen sollte. Eine ziemlich systematische Literaturrecherche ergab dabei genau das Bild, das dieses und verwandte Themen bis heute prägt: weitreichende Versprechen, fast nur Publikationen über, aber kaum welche mit „Research“ und diese dann noch mit entweder wenig relevanten oder methodisch fragwürdigen Ergebnissen.

Und so ging es dann weiter, unter Verwendung aller Buzzwords der letzten 20 Jahre – mit Digitalisierung und KI als UHU der nächsten Jahre („Im Falle eines Falles klebt UHU wirklich alles“) mag sich dann ein anderer Kommentar befassen.

 

„Individualisierte Medizin“ wollte Ende der EbM einläuten

Anfang der 2000er Jahre meinte die „Individualisierte Medizin“ (mit zahlreichen phantasievollen Synonymen), das Ende der EbM einläuten zu können. Mit den wenigen Patienten, die man dann höchst individuell behandeln müsse, seien schließlich keine Vergleiche möglich – und natürlich schon gar keine randomisierten. Das konnte einem bekannt vorkommen, denn diese Argumentation hatte die Homöopathie auch schon 200 Jahre lang vorgetragen.

Etwas später warb die EMA und ihr Chief Medical Officer für das Konzept der „Adaptive Pathways“. Man solle doch für die Zulassung erst einmal ein paar Daten sammeln, um dann hinterher die relevante klinische Evidenz zu generieren. Jedem Beobachter konnte von allem Anbeginn an klar sein („predictably“), dass diese Idee scheitern würde. Denn welcher Hersteller wird freiwillig Studien machen, nachdem er die Zulassung in der Tasche hat? Und RCTs gingen dann natürlich gar nicht mehr, weil man den Patienten nach der Zulassung das Medikament ja nicht mehr „vorenthalten“ könne. Neben Beispielen, in denen die EMA solche Studien tatsächlich erzwungen hat, war die wesentliche Konsequenz dieses Ansatzes, dass die Zulassungsanforderungen auf breiter Front gesenkt wurden und bis heute blieben.

Das deutsche Pendant zu „Outcomes Research“ wurde die Versorgungsforschung: ein hoch relevanter Forschungsbereich, der sich mit der Beschreibung und Analyse der (deutschen) Versorgungssituation befassen will. Wie so etwas umgesetzt werden kann, zeigt etwa eine Analyse der Versorgung von Schlaganfall-Patienten, die 2021 veröffentlicht wurde (5). Leider erlag die Versorgungsforschung stark der Faszination, sich mit der Frage „What works in health care“ befassen zu wollen und hierfür „neue Methoden“ zu entwickeln. Die Überzeugungsarbeit, dass es den Bohrer für das Loch in der Wand schon seit Jahrzehnten gibt, war zeitraubend und frustrierend, vielleicht aber doch nachhaltig erfolgreich.

 

Heillose Versprechen mit „Big Data“ und „Real Word“

Dann kam Big Data mit seinen Anmaßungen („the end of theory“) und heillosen Versprechen, von denen bisher keines gehalten wurde (was erfreulicherweise die offensichtlichen Probleme, die mit der Idee einhergehen, auch nicht hat relevant werden lassen), und dann: „Real World“.

„Real World“ ist wohl eine der wirkmächtigsten Wortschöpfungen der letzten Jahre. Inhaltsleer und sprachlich absurd erscheint sie als ein Faszinosum, ein riesiger Halo, dessen Kern im Dunkeln liegt. Nichts, was man mit diesem Konzept in Verbindung bringen könnte, ist neu. Vieles, was unter dem Label zu lesen ist, hat als alleinigen Qualitätsanspruch eben dies: realer zu sein als die Realität. Methodisch muss man dagegen weitreichenden „room for improvement“ feststellen.

In einem ganz aktuellen Beispiel stellten Forscher der Universität Basel fest, so die Überschrift der Nachricht im Deutschen Ärzteblatt Anfang Oktober 2022, dass „Real-World-Erfahrungen nicht deckungsgleich mit Studienergebnissen“ seien – es ging um ein neues Medikament zur Behandlung von Lungenkrebs. Abgesehen davon, dass die Aussage bei genauer Betrachtung der Ergebnisse gar nicht stimmt, wird hier – ständig – übersehen, dass Nutzen eine Frage des Vergleichs ist: Leben Menschen länger mit Therapie A als mit Therapie B? Zu behaupten, Menschen „profitieren“, weil sie unter Therapie A 10 Monate überleben, ohne irgendeine Information darüber zu geben, wie ihre Situation ohne Therapie A gewesen wäre, ist, man muss es vielleicht einmal so klar sagen, schlichter Unfug. Er gewinnt durch den grellroten „Dies ist real“-Aufkleber nichts an Substanz.

Und wie könnte es anders sein: In den meisten Definitionsversuchen wird Real World als explizites Komplement zu RCTs gesehen. Wobei diese dann doch ins Spiel gebracht werden – um die wackligen Ergebnisse der gefühlten Realitäten zu verifizieren. Der Forderung nach Einbezug sogenannter Real World Evidence in Nutzenbewertungen – man fühlt sich an „Anything goes“ nach Paul Feyerabend erinnert – steht vorläufig noch ihre dürftige methodische Basis entgegen. Wenn die Wundertüte erst einmal geöffnet ist, ist der Inhalt eben meist enttäuschend. Aber eine offene Diskussion dieses Inhalts findet kaum statt, und so ist durchaus zu befürchten, dass die Gesundheitspolitik dem Duft der großen realen Welt nicht widerstehen kann.

Am 15. Oktober 2019 wurde bekannt, dass Esther Duflo, Abhijit Banerjee und Michael Kremer den Nobelpreis für Wirtschaftswissenschaften für ihren „experimentellen Ansatz zur Linderung von Armut“ erhalten würden. Der SPIEGEL kommentierte, der Ansatz biete „entscheidende Vorteile gegenüber traditionellen Beobachtungsstudien“ und liefere „bemerkenswerte Ergebnisse“. Auch der damalige Bundesentwicklungsminister Gerd Müller fand lobende Worte. Überraschung: Es ging um die Durchführung randomisierter Studien in Entwicklungshilfeprojekten.

Einige Wochen vorher war ein Gesetz in Kraft getreten, dass in diesem Zusammenhang wie ein besonderer Schelmenstreich anmutet: In Zusammenhang mit der Einführung der sog. „Anwendungsbegleitenden Datenerhebung“ (§ 35a (3b) SGB V), mit der nicht nur Daten zum Nutzen generiert, sondern sogar der Zusatznutzen von bestimmten Arzneimitteln quantifiziert werden sollte, verbot der Gesetzgeber kurzerhand die Durchführung randomisierter Studien. Er untersagte die Anwendung des für sein eigenes Ziel am besten geeigneten Instruments! Positiv betrachtet könnte man es als eine besondere Herausforderung betrachten: „Bohren Sie bitte ein Loch. Es sollte tief und präzise sein – Sie dürfen aber keinen Bohrer verwenden.“ Darauf muss man erst mal kommen.

 

Die neue „Sau im Dorf“: digitale Zwillinge

Die eine Sau läuft noch im Dorf herum und verwüstet die Gärten, da naht die nächste: Die „Digitalen Zwillinge“. Gerade wurde noch mit Inbrunst das hohe Lied der realen Welt gesungen, jetzt folgt der 180 Grad Schwenk und die virtuelle Welt ist gefragt. Unter „digital twins“ versteht man die Abbildung eines realen Objektes oder einer Person in der virtuellen Welt. Und so wird z. B. versucht, mit geeigneten Modellen die Dynamik von Leukozyten während der Chemotherapie eines Patienten oder andere Verläufe zu beschreiben, um frühzeitig therapeutische Schlüsse daraus abzuleiten. Das ist zweifellos interessant und mutmaßlich nützlich, aber auch hier ist die Wortschöpfung bezeichnend: Von einem Zwilling ist das ungefähr so weit entfernt wie ein Stück Totholz von einer 100jährigen Eiche. Und das Déjà Vu folgt sofort: Gerade wird noch das Schaf geschoren, dessen Wolle für die Säuglingssöckchen verwendet werden soll, da wird bereits über eine „New era of evidence-based medicine“ räsoniert (6) und – ministeriell geadelt – die Botschaft verbreitet, dass man mit so etwas klinische Studien ersetzen könne, zumal der Aufwand viel geringer sei.

Womit wir bei einem der besonders hingebungsvoll vorgetragenen Argumente gegen RCTs und für die immer neuen Wundertüten angekommen sind: die Behauptung, RCTs seien so aufwendig und, so darf man vermuten, alles andere weniger. Ausdrücklich gesagt wird letzteres meist nicht. Wer nämlich nachdenkt, erkennt schnell: „Die sorgfältige Vorbereitung einer nicht-randomisierten vergleichenden klinischen Prüfung wird im allgemeinen also ganz erheblich aufwendiger und langwieriger sein als diejenige einer Studie mit randomisierter Zuteilung zu den Behandlungsgruppen. Eine unzulängliche Vorbereitung verlagert den notwendigen Aufwand nur in die Zukunft, da der Mangel an Aussagefähigkeit durch entsprechende Verifizierungsstudien schließlich wettgemacht werden muss“ (1). 1986 !

Daran hat sich seitdem nichts geändert, aber das muss diejenigen, die den Research Waste auf den Markt geworfen haben, nicht weiter kümmern. Die Schäfchen – häufig auch in Gestalt von ansehnlichen Forschungsmitteln – sind im Trocknen, die Sau tobt durchs Dorf – die Scherben sollen andere zusammenkehren.

 

Literatur

1 Mau et al DMW 111 (1986) 1569-73

2 Delaloge S et al.; Annals of Oncology 27 (2016) 1725-32; doi: 10.3390/jpm12081255

3 Sarno G et al.: European Heart Journal 33 (2012) 606–13; doi: 1093/eurheartj/ehr47

4 Anderson C; Science 263 (1994) 1080-82

5 Geraedts M et al. ; Dtsch Ärztebl. Int 118 (2021) 857-63; doi:10.3238/arztebl.m2021.0339

6 Armeni P et al.; J Pers Med 12 (2022) 1255 doi: 10.3390/jpm12081255

 

Lesen Sie von Prof. Dr. Jürgen Windeler auch:

Traurige Forschungskultur und fehlender politischer Wille, Observer Gesundheit 10. November 2021

Deutscher Versorgungsalltag statt kleinster europäischer Nenner, Observer Gesundheit 31. Januar 2020


Observer Gesundheit Copyright
Alle Kommentare ansehen