Impulse zur Neujustierung des AMNOG? – Kamellen!

Replik auf die Serie zur Neujustierung der Mechanik des AMNOG

Prof. Dr. med. Jürgen Windeler

Der Superlativ ist, so weiß es auch schuelerhilfe.de, „die höchste Steigerungsform eines Adjektivs“. Da geht nichts „dröbber“! Wenn es in dem Beitrag von Welte und Pisch [1] also heißt, RCTs seien die „robusteste Evidenzquelle“, dann ist damit die Spitze der Fahnenstange, was die Qualität der Evidenz bezogen auf Verzerrungsfreiheit oder interne Validität angeht, erreicht. Logische Konsequenz: Die Aussagekraft jedes anderen vergleichenden Designs ist weniger robust, schwächer als die von RCTs. Bekannte Sachlage.

Der Aufmacher fasst dann den Kern des Artikels zu „Impulsen für eine moderne Nutzenbewertung“ so zusammen: „In manchen Fällen böten andere Studienformate erhebliche Vorteile bei Tempo, Kosten, Aussagekraft.“ Das ist schon bzgl. der ersten beiden Aspekte mehr als fraglich, zum dritten jedenfalls schlicht falsch – und offensichtlich unlogisch, denn „robustest“ ist nicht weiter steigerungsfähig – der Superlativ eben.

In dem Beitrag selbst [1] dann das bekannte, immer wiederkehrende Muster: erst mal ein Bekenntnis zu RCTs, dann beginnt die Sägearbeit. Und was zunächst nach filigraner Laubsäge aussieht – „(fast) immer“ –, wird ohne Abgrenzung zu einer breitgefächerten Forderung nach weniger „methodischer Strenge“. Diese Forderung, das gehört auch dazu, wird mit plakativen, moralischen Dimensionen wie „Versorgungsgerechtigkeit“, „Fairness“ oder „ethischem“ Crossover [2] aufgeladen.

Bekanntes Muster also – und ob es Industrievertretern, Klinikern, „Real World“-Adepten oder dem Sachverständigenrat [3] in den Sinn kommt, macht keinen wesentlichen Unterschied. Lohnt es daher, sich am gefühlt millionsten Beitrag abzuarbeiten, der wieder erzählt, dass RCTs „zunehmend an ihre Grenzen“ stoßen? Der linksrum oder rechtsrum, von oben oder von unten versucht, Argumente gegen oder zur Relativierung von randomisierten Studien vorzutragen? Eigentlich nicht. Es ist zu solchen Einlassungen alles gesagt und geschrieben, mehrmals, dutzende, tausende Male.

Nur ist es eben ärgerlich und schädlich [4], die immer gleichen, meist mit großem Gestus vorgetragenen „Argumente“ zu lesen. Und so ein bisschen ist man ja doch neugierig, was denn dieses Mal aus der Trickkiste geholt wird, und ob den Autoren vielleicht doch was Neues einfällt zu „Limitationen“ von RCTs. Überraschung: Man wird enttäuscht.

Die Grundlagen von RCTs und ihre herausgehobene Stellung („Goldstandard“) werden richtig beschrieben – ok, dabei kann man eigentlich nicht viel falsch machen. Dann aber geht es los. Es sei bei kleinen Patientengruppen „erschwert …, eine ausreichende Anzahl … für eine statistisch belastbare RCT zu rekrutieren.“ Und was genau, möchte man die Autoren fragen, hat nun die Patientenzahl mit dem Design, mit der Randomisierung zu tun? Soll es besser sein, 20 Patienten in eine nicht-randomisierte Vergleichsstudie statt in eine RCT einzubeziehen? Ist diesen Autoren nicht bewusst, dass eine nicht-randomisierte Vergleichs-Studie jedenfalls die gleiche Anzahl von Patienten braucht? Schlimmer noch: Kann ihnen ihre Biometrie-Abteilung bitte erklären, dass solche Studien (viel) mehr (!) Patienten brauchen, um eine angemessene Confounder-Kontrolle und „statistisch belastbare“ Ergebnisse (was immer sich die Autoren darunter vorstellen) zu gewährleisten?

 

Wider fachliche Gründe

Mit dem Verzicht auf die Randomisierung nimmt man bewusst und wider fachliche Gründe in Kauf, für diese Betroffenen eine vermeidbar fehlerträchtige Aussage zu machen. Benachteiligung darf man das nennen, in anderen Bereichen würde man von Diskriminierung sprechen [5]. „Versorgungsgerechtigkeit“ ist das gewiss nicht.

Und es geht gleich weiter: „Da also für aussagekräftige Ergebnisse viele Patient:innen rekrutiert werden müssen, sind RCTs überdies nicht nur kostenintensiv, sondern auch zeitaufwändig.“ Viele? Das klingt nach Massen. Wie „viele“ denn? 10 Patienten zu randomisieren ist besser, als es nicht zu tun! Und was hat das „viele“ mit RCTs, mit der Randomisierung, zu tun? In buchstäblich jedem Studienansatz – schon bei Meinungsumfragen – hängt die Präzision der Aussage von der Fallzahl ab. Warum bloß wird es uns bei erhöhter Unsicherheit wegen einer vielleicht nicht befriedigenden Präzision als tolle Idee verkauft, diese Unsicherheit durch Verzicht auf die Randomisierung noch weiter zu erhöhen?

In vergleichenden Studien besteht immer die Situation, dass Patienten eine begonnene Intervention unterbrechen, abbrechen, oder irgendwas „falsch“ machen. Und natürlich kann dies, besonders das Wechseln von Patienten in einen anderen Behandlungsarm (Crossover), zu „massiven Verzerrungen“ des Vergleichs führen, wie die Autoren schreiben. Aber das kann in jedem Vergleich passieren, doch nicht deshalb, weil die Patienten in einer RCT waren. Im Übrigen ist ein solches Crossover ein zwar für die Studie u.U. problematischer, aber ganz selbstverständlicher Ausdruck der Selbstbestimmung von Teilnehmern. Es besteht kein Anlass, diesen zu einem quasi heroischen „ethischen“ Crossover zu stilisieren [2].

Klar, die Ethik darf natürlich bei solchen Gelegenheiten nicht fehlen. Es gebe „ethische Bedenken“ gegen eine RCT, wenn „es schon vor Studienbeginn eindeutig ist, dass das neue Medikament deutlich besser wirkt als das Vergleichsmedikament …“. Aber wie kennt man bloß ohne Studien ein „eindeutiges“ Ergebnis? Geheimes Pharma-Wissen? KI? Oder haben die Autoren Zugang zu Offenbarungen?

Kein einziges Argument ist zu erkennen, das mit Randomisierung, mit RCTs irgendetwas zu tun hat, nichts Substantielles zu „Grenzen“ und „Limitationen“ und kein Aspekt, warum RCTs in bestimmten Situationen nicht machbar sein könnten (und es gibt solche Situationen natürlich). Es folgt die Klage, man wisse gar nicht, was man machen solle. „Problematisch ist …, dass bislang keine verbindlichen Kriterien vorliegen, wann eine RCT … nicht anwendbar ist, und wie … ohne RCT … vergleichende Aussagen zum Zusatznutzen möglich sind.“

Nun wäre so ein Beitrag zur „modernen Nutzenbewertung“ doch perfekt geeignet gewesen, mal genauer die Situationen darzulegen, die durchgehend nebulös mit „manche“, „in besonderen Fällen“ oder „speziellen Therapiesituationen“ angedeutet werden, und konkret vorzuschlagen, was in diesen Situationen für angemessen gehalten wird – und warum.

 

Wo sind die Impulse?

Stattdessen folgt eine lange Liste von Schlagworten. Von statistischen Modellen bis zu alternativen Studiendesigns wird alles aufgefahren. Alles bekannt, nichts davon im derzeitigen AMNOG verboten, irgend etwas Innovatives sucht man vergeblich. Man mag ja Propensity Scores benutzen, weil – angeblich – eine RCT nicht machbar ist. Aber das muss nicht eingeführt werden, das ist jetzt schon erlaubt (und wird gemacht). Diese „Impulse“ darf man wohl als olle Kamellen bezeichnen. Sie werden auch nicht impulsiver, wenn sie mit destruktiver Frontenbildung – Wissenschaft vs. „Versorgungsgerechtigkeit“, was immer das sein soll – oder Absurditäten – „Reinheit der statistischen Verfahren“ vs. „reale (sic!) Behandlungsergebnisse“ – garniert werden.

Und unvermeidlich: die allumfassende „Real World Evidence (RWE)“ für „Langzeitdaten und Informationen aus der Versorgungsrealität“. Langzeitdaten? Aus der „Versorgungsrealität“? Für die frühe Nutzenbewertung ein paar Monate nach Zulassung? Soll das ein Plädoyer sein, die Bewertungen des Zusatznutzens regelmäßig zu aktualisieren – und, wie es u.a. der SVR empfohlen hat, die Preise (erst) der überzeugenden (Langzeit-)Evidenz folgen zu lassen? Wobei auch hier die Standards klar sind. Eine europäische Arbeitsgruppe hat gerade Vorschläge und Anforderungen für Studien zur Krebstherapie-Optimierung publiziert [7]. Schlanke, pragmatische, zielgerichtete Studien, aber der Verzicht auf Randomisierung kommt da nirgends vor.

Bei dem Strauß an elaboriert klingenden Schlagworten geht leicht der Blick auf das Wesentliche verloren: Nutzen- und Zusatznutzenaussagen entstehen – nur! – aus Vergleichen. Dabei – jeder würde in seinem Alltag sofort zustimmend nicken – ist Wert auf faire aussagefähige Vergleiche zu legen. Am besten geht das mit RCTs, vor allem als fehlerärmste, „robusteste“ Evidenz, aber auch als effizientestes, einfachstes Verfahren. Denn alle Erfahrung zeigt, dass der Aufwand mit nicht-randomisierten Vergleichen, auch z.B. mit den Konzepten der Target Trial Emulation (TTE), zu einem vergleichbaren Niveau wie RCTs zu kommen, immens hoch ist.

 

Goldstandard hat Konsequenzen

Der von den Autoren zutreffend benutzte Begriff des Goldstandards (für RCTs) hat daher seine Konsequenzen. An diesem Standard haben sich andere Designs messen zu lassen. Die „Wege zu einer modernen Nutzenbewertung“ brauchen nicht immer RCTs. Andere Wege sind erlaubt und gangbar, jetzt schon! Was diese Wege aber brauchen, ist der Bezug zur Referenz: RCT. Kann ich begründen, dass ich genauso gut oder „dicht dran“ bin? Oder kann ich wenigstens argumentieren, wie weit ich weg bin, wieviel Mehr an Unsicherheit ich in Kauf nehme(n soll)? Darauf kommt es an, nicht darauf, irgendwelche Kochrezepte aufzuschreiben, die beim ersten „besonderen Fall“ sowieso Makulatur werden. Man überzeuge diejenigen, die das zu beurteilen haben, davon, dass das, was man statt des Goldstandards meint vorlegen zu können, dieser Referenz entspricht oder ihr sehr nahekommt. Ja, das ist ein hoher Aufwand – in vielen Fällen höher, als eine RCT zu machen.

Sonderregelungen in Anspruch zu nehmen erfordert, diesen Anspruch zu begründen und sorgsam darzulegen, dass daraus keine ungerechtfertigten Vorzüge entstehen. Dazu passt nicht, über „beträchtliche Berichts- und Dokumentationspflichten“ zu jammern oder den Anspruch als Zumutung zu beklagen, dass Argumente „intensiv dokumentiert und methodisch verteidigt werden (müssen)“ [2]. Ja, was denn sonst? Wer den Rolls-Royce-Zugang zum deutschen Gesundheitssystem beansprucht, der muss ein bisschen mehr auf den Tisch legen als sein Taschengeld.

Schließlich: Bei vollkommen berechtigter Kritik an der Realität der anwendungsbegleitenden Datenerhebung (AWB) [6] wird ein Registergesetz nichts Entscheidendes ändern. Register sind grundsätzlich eine gute Idee. Aber zum einen wird das Warten auf ein „bundesweites, qualitätsgesichertes Registerwesen“ den beklagenswerten Status Quo nur um mindestens 10 Jahre verlängern. Und zum anderen sind AWB oder Register oder „Real World“ ja nur ein – vergebliches – Herumdoktern am eigentlichen Grundübel des deutschen Systems: Zu viele Medikamente kommen zu schnell in die breite Versorgung. Die Idee, „Innovationen schneller in die Versorgung zu bringen“ und dann auf „Evidenz unter Alltagsbedingungen“ zu warten, ist nichts anderes, als Patienten in diesem Land (noch mehr als bisher schon) zu Europas Versuchskaninchen zu machen. Abgesehen davon sind bisher alle Ansätze mit Ankündigungen, nach der Zulassung aussagefähige (!) Daten beizubringen, gescheitert oder im Sande verlaufen. Es ist für jeden, der es sehen will, vollkommen klar, dass das nicht funktionieren wird.

Neujustierung! Gerne, mit Vergnügen und Gewinn. Der „Blick ins Ausland“ weist unübersehbar den einzuschlagenden Weg: Einführen einer echten 4. Hürde!

 

[1] https://observer-gesundheit.de/rcts-in-der-klinischen-forschung-fast-immer-der-goldstandard/

[2] https://observer-gesundheit.de/benachteiligung-besonders-innovativer-therapien-im-amnog/

[3] https://observer-gesundheit.de/arzneimittelpreis-gutachten-eine-verpasste-chance/

[4] Wieseler B, Neyt M, Kaiser T, Hulstaert F, Windeler J. Replacing RCTs with real world data for regulatory decision making: a self-fulfilling prophecy? BMJ. 2023 Mar 2;380:e073100. doi: 10.1136/bmj-2022-073100. PMID: 36863730.

[5] Windeler J, Lange S. Nutzenbewertung in besonderen Situationen–Seltene Erkrankungen [Benefit assessment in special situations–rare diseases]. Z Evid Fortbild Qual Gesundhwes. 2008;102(1):25-30. German. doi: 10.1016/j.zgesun.2007.12.005. PMID: 19009938.

[6] https://observer-gesundheit.de/was-koennen-registerdaten-und-anwendungsbegleitende-datenerhebungen-leisten/

[7] Lacombe D, Cardoso Borges F, Amariutei AE, Booth CM, Brusselle G, Casolino R, Demolis P, Giuliani R, Goldstein DA, Gravis G, Kaiser M, Korakis I, Radulovic M, Sullivan R, Tombal B, Wieseler B, Zaiac M, Voltz-Girolt C, Pignatti F. Accelerating cancer treatment optimisation: A multistakeholder roadmap from the Cancer Medicines Forum. J Cancer Policy. 2026 Jan 7;47:100700. doi: 10.1016/j.jcpo.2025.100700. Epub ahead of print. PMID: 41512959.

 

 

Lesen Sie die Serie zur Neujustierung der Mechanik des AMNOG:

Nicole Stelzner, Dr. Thorsten Pisch: „Was können Registerdaten und anwendungsbegleitende Datenerhebungen leisten?“, Observer Gesundheit, Observer Gesundheit, 14. Januar 2026,

Dr. Karsten Kissel, Dr. Thorsten Pisch: „Benachteiligung besonders innovativer Therapien im AMNOG?“, Observer Gesundheit, 9. Januar 2026.

Dr. Robert Welte, Dr. Thorsten Pisch: „RCTs in der klinischen Forschung – (fast) immer der Goldstandard“, Observer Gesundheit, 5. Januar 2026.

 

 

Weitere Beiträge von Prof. Dr. Jürgen Windeler: 

„Sparolympiade – warum nur billiger, nicht besser“, Observer Gesundheit, 17. Dezember 2025,

„Arzneimittelpreis-Gutachten: eine verpasste Chance“, Observer Gesundheit, 24. Juli 2025,

„Forschung mit ePA-Daten – ein Blick in die trübe Zukunft“, Observer Gesundheit, 2. März 2025.


Observer Gesundheit Copyright
Alle Beiträge Management/Trends ansehen