Arzneimittelpreis-Gutachten: eine verpasste Chance

Was stellt sich der Sachverständigenrat unter belastbarer Evidenz vor?

Prof. Dr. med. Jürgen Windeler

Die Lobeshymnen waren nicht zu überhören, als der Sachverständigenrat Gesundheit & Pflege (SVR) im Rahmen eines Jubiläums-Symposiums zu seinem 40jährigen Bestehen am 27. Juni auch sein aktuelles Gutachten „Preise innovativer Arzneimittel in einem lernenden Gesundheitssystem“ vorstellte. Und vieles von dem, was der Rat vorschlägt, etwa die Reformierung der „dysfunktionalen“ AbD-Regelung (§ 35a Abs. 3b SGB V), hat dieses Lob ohne Zweifel verdient.

Es wurden mutige, patientenorientierte und wirtschaftliche Perspektiven aufgezeigt – auch wenn man nicht davon ausgehen kann, dass davon viel in der Praxis ankommt. Ein wesentlicher Vorschlag war, dass sich der Preis von Arzneimitteln – natürlich! – an der Güte der vorliegenden Evidenz orientieren sollte, „stärker an den evidenzbasierten Nachweis eines Zusatznutzens zu koppeln“ sei, wie es im Gutachten heißt.

Dies, so der Rat weiter, „kann nur erreicht werden, wenn die Generierung belastbarer Evidenz … u. a. durch eine geeignete Incentivierung systematisch gefördert wird.“ Dem ist auch nicht zu widersprechen; ebenso wenig der Empfehlung, den absurden Begriff „Real World Data“ zu vermeiden und z.B. durch „Versorgungsnahe Daten (VeDa)“ zu ersetzen.

In Abschnitt 4.2.3 beschreibt das Gutachten konsequent moderne Ansätze von Studien, die versorgungsnah den (Zusatz)Nutzen von Arzneimitteln untersuchen können. Dabei wird besonders die Notwendigkeit einer Randomisierung hervorgehoben, was in die Empfehlung mündet, „regulatorische Rahmenbedingungen für die Durchführung registerbasierter RCTs, … konstruktiv zu gestalten“. Was „konstruktiv“ genau sein soll, ist die eine Frage, die sich der Leser stellt, die andere aber, warum hier die Engführung auf „regulatorische“ Bedingungen erfolgt ist, und vor allem, warum hier und im weiteren Gutachten fast ausschließlich auf Register abgehoben wird. Deren weiterer Ausbau mag ja als „besonders förderungswürdig“ angesehen werden, aber was soll denn bis dahin mit der defizitären Studienkultur in Deutschland geschehen?

Die Antwort bleibt der Rat nicht nur schuldig, sondern er sät mit zwei weiteren Abschnitten und Äußerungen an anderen Stellen erhebliche Zweifel, was denn nun eigentlich seiner Auffassung nach passieren soll. Und besonders die Ausführungen in dem ja eigentlich „grundlegenden“ Kapitel „Datengrundlagen“ (4.2.1) haben mit der Empfehlung des Rates wenig zu tun. Hier sind keine Perspektiven zu erkennen, stattdessen werden sämtliche altbackenen, stereotypen Argumente gegen RCT ins Feld geführt. Nirgends ist zu erkennen, wie in Deutschland substanzielle pragmatische Forschung befördert werden könnte, wie sie in vielen Ländern um uns herum gepflegt wird.

 

Übertragbarkeit

Der Dreh- und Angelpunkt solcher Darlegungen ist immer wieder die Frage, welche Bedeutung die „externe Validität“, also die Übertragbarkeit von Studienergebnissen hat. Merkwürdigerweise wird dies kritisch immer nur bzgl. RCT diskutiert, etwa mit der Aussage „dass die externe Validität einer klinischen Studie – auch bei hoher interner Validität – limitiert sein kann“. Nein, die externe Validität „kann“ nicht, sie „ist“ grundsätzlich und immer und ganz unabhängig von irgendeinem Studiendesign „limitiert“, weil analysierte Daten nie, buchstäblich nie, eine konkrete Behandlungssituation abbilden können. Dafür gibt es viele Gründe, der simpelste ist der, dass die Versorgung von gestern nicht die Versorgung von morgen ist. Daten aus Studien sind daher auch grundsätzlich nicht „generalisierbar“, sondern nur übertragbar im Sinne einer Grundlage für die Anwendung in einer Entscheidungssituation, in die noch viele andere Aspekte eingehen [1]. „Externe Validität“ ist insofern gerade kein Studienkriterium, wie der Rat meint, sondern ein Kriterium, das die Anwendbarkeit von Erkenntnissen auf eine bestimmte Situation beschreibt, heißt: Die Ergebnisse einer Studie können für eine Situation extern valide sein, für eine andere eben nicht [2].

Der Rat bemüht dazu weiter das angebliche Efficacy-Effectiveness-Gap, mit dem beschrieben wird, dass die „experimentelle Wirksamkeit (efficacy)“ und die „Wirksamkeit bzw. der Nutzen unter Alltagsbedingungen (effectiveness)“ „sich deutlich unterscheiden können“. Nun ist die Möglichkeitsform per definitionem richtig, aber leider findet sich an dieser Stelle keine Quellenangabe, kein Beispiel, das das Gap substantiieren könnte. Den Autoren sind offenbar u.a. die beiden einschlägigen Meta-Analysen unbekannt, die darauf hindeuten, dass die Unterschiede entweder gar nicht vorhanden oder jedenfalls nicht sehr ausgeprägt sind [3,4]. Die Lücke, die angeblich unbedingt mit unzuverlässigen Daten gefüllt werden muss, entpuppt sich damit eher als eine Ritze, die im Regelfall mit der Annahme „etwas weniger Nutzen“ gut geschlossen werden kann. Falls ein begründeter Anlass besteht, sollte man sie mit guten aussagefähigen Studien untersuchen.

Welches triftige Unterscheidungsmerkmal im Übrigen Efficacy von Effektiveness trennt und warum „Wirksamkeit“ (in beiden Fällen) mit unterschiedlichen Methoden untersucht werden sollte, hat bisher noch niemand schlüssig begründen können [5].

 

Argumente gegen RCT

Wie üblich in solchen Darlegungen werden dann die Argumente vorgetragen, die angeblich gegen die Durchführung von RCT sprechen, die „nicht immer machbar“ sind – ja, wie jede andere Studienform auch.

So liest man als Argument, dass „bei kleiner Fallzahl die Gleichverteilung von unbekannten Störgrößen (confounder) durch Randomisierung nicht zuverlässig gelingt“. Das mag für den methodischen Laien so aussehen, ist aber grundfalsch. Die „Gleichverteilung“ bezieht sich nicht auf die beobachteten, sondern die erwarteten (theoretischen) Werte, und das „Magische“ an der Randomisierung ist gerade, dass sie die Gleichverteilung bzgl. der erwarteten Werte „garantiert“ – immer! [6] Dies ist auch der Grund, warum die weit verbreitete Praxis, in RCT Baseline-Daten mit statistischen Tests zu prüfen, Unfug ist – man prüft sozusagen, ob der Zufall Zufall ist [7]. Man könnte höchstens bei großen, über mehrere Kriterien konsistenten Imbalancen grundlegende Zweifel an der Durchführung der Randomisierung anmelden.

Als weiteres Argument wird der „hohe bürokratische, zeitliche und finanzielle Aufwand“ für klinische Studien, also RCT, genannt. Da würde man natürlich gerne einmal Informationen zum zeitlichen und finanziellen Aufwand für den Aufbau und den Unterhalt von Registern erfahren, insbesondere, wenn sie, so die berechtigte Forderung des Rates an anderer Stelle, „qualitativ hochwertig“ sein sollen. Es bedarf zudem eines ganz erheblichen Aufwands, Routinedaten so aufzubereiten, dass sie für Forschungsfragen brauchbar werden, mehr noch für die Absicherung der methodischen Analyse bzgl. möglicher Confounder – die gerade publizierte Studie zum deutschen Mammographie-Screening ist da ein sehr eindrucksvoller Beleg. Und eigentlich wäre es doch eine willkommene Gelegenheit gewesen, Hinweise für eine Reduzierung des bürokratischen Aufwands zu geben, um aussagefähige Studien besser möglich zu machen, statt angeblich weniger aufwändige, aber sicher nicht „belastbare“ Studien zu propagieren.

Den Hinweis, dass Ergebnisse randomisierter Studien „gerade bei zeitkritischen Fragestellungen zu einer ggf. nicht ausreichend schnellen Verfügbarkeit der benötigten Evidenz“ führen, sollte eigentlich nach der bahnbrechenden RECOVERY-Studie, die die Engländer zu Beginn der Pandemie aufgesetzt habe, niemand mehr ernsthaft ins Feld führen. Dass man so etwas in Deutschland nicht „auf die Kette“ bekommt, ist das Thema, um das es eigentlich geht, und das eben nicht nur mit „regulatorischen Rahmenbedingungen“ zu tun hat.

Es mag dem offenbar erheblichen Zeitdruck und der resultierenden „heißen Nadel“ geschuldet sein, dass verschiedene Aussagen gemacht werden, die irritierend ungenau sind. „Da VeDa nicht unter streng standardisierten Rahmenbedingungen (wie etwa experimentelle Studien) und ohne Randomisierung erhoben werden, kann es … zu Verzerrungen kommen“. Nein, dadurch, dass diese Daten so erhoben werden, kommt es nicht zu Verzerrungen. Erst wenn ihre Verwendung als Outcomes in nicht-randomisierten Studien erfolgt, sind Verzerrungen der angestellten Vergleiche so gut wie sicher – oder jedenfalls niemals sicher auszuschließen. Viel wichtiger aber: VeDa können natürlich auch mit Randomisierung „erhoben“ oder genutzt werden, nämlich als Outcome-Informationen in randomisierten Studien. Die 2021 publizierte Meta-Analyse von McCord et al. [4] listet allein 84 RCT, bei denen so verfahren wurde. Das ist die – gar nicht so neue – Perspektive für gute, pragmatische Forschung unter Verwendung von VeDa. Liest man diesen Teil des Gutachtens, bekommt man den Eindruck, als gäbe es das alles nicht – und erfährt erst einige Seiten später erstaunt das Gegenteil, wenn der Rat solche Studien beschreibt und unterstützt.

Wieso stattdessen ein in einer einzigen Publikation vorgestelltes Konzept [8], das zudem fundierter Kritik ausgesetzt ist [9], mit der eigentlich anmaßenden Bezeichnung „EbM plus“ Eingang in das SVR-Gutachten gefunden hat, bleibt rätselhaft – wieso es zudem noch falsch bezeichnet wurde, ebenso.

 

Studienendpunkte

Die Irritation darüber, was der Rat eigentlich genau empfiehlt (und ob das eigentlich sinnvoll ist), wird weiter verstärkt, wenn man sich die Ausführungen zu Studienendpunkten im Abschnitt 4.2.2 ansieht. Dort werden z.B. Inhalt und Empfehlungen eines Core Outcome Sets beschrieben. Dieses und die darin abgebildeten Outcome-Dimensionen sowie PROMs und PREMs sind hoch sinnvoll, nur fragt man sich, wieso sich diese Darstellungen auf „klinische Studien“ beschränken. Gelten denn diese Anforderungen (etwa: „bio-psycho-soziale Faktoren (z. B. gesundheitsbezogene Lebensqualität)“ und der „hohe Stellenwert von patientenberichteten Endpunkten“ für die im vorangegangenen Abschnitt so geschätzten VeDa und die im folgenden Abschnitt empfohlenen Register nicht? Und was sagt es umgekehrt über die Eignung von VeDa (und derzeit auch für Register), wenn doch klar ist, dass man in Routinedaten diese Angaben nicht finden wird und der „hohe Stellenwert“ nicht abgebildet werden kann? Braucht man das alles im „Alltag“ plötzlich nicht mehr?

Anders gefragt: Wie stellt der Rat sich angesichts dieser, sagen wir, schwer kompatiblen, teilweise widersprüchlichen Auslassungen vor, dass diese ganzen Anforderungen in aussagefähigen Studien umgesetzt werden sollen, wie sollten diese aussehen, wie sollten sie befördert werden, wie soll die „Incentivierung“ aussehen? Und vielleicht auch: Was muss passieren, damit diese Kapitel nicht in 10 Jahren wieder genauso geschrieben werden müssen?

 

Register als Allheilmittel?

Sehr viel Raum nimmt dann in dem Gutachten die Etablierung einer „Gesundheitsregisterlandschaft“ ein. Das ist sicher eine interessante Idee. Nur darf man, ohne defätistisch zu sein, ihre Realisierungswahrscheinlichkeit als eher klein einstufen, wenn man die Entwicklung etwa der Krebsregister, die derzeitige Finanzsituation oder auch generell die Realisierung von Empfehlungen des Rates betrachtet. Aber selbst wenn dies auf den Weg gebracht würde, wird es (sehr viele) Jahre brauchen, bis Register in der Form und mit den vom Rat beschriebenen Anforderungen zur Verfügung stehen. Und was, bitteschön, passiert bis dahin mit der Studien- und folglich Evidenz„landschaft“?

Und auch hier stechen die Ungereimtheiten ins Auge. Beispielsweise heißt es unter der Randnummer 230: „Für die interne Validität von registerbasierten Studien … ist eine lückenlose und korrekte Datenerhebung … inklusive der detaillierten Erfassung möglicher Bias-Quellen bzw. confounder besonders wichtig“. Ganz abgesehen davon, dass man sich mit dem Anforderungsprofil wiederum in utopischen Gefilden bewegt, gilt dies eben nicht generell für „registerbasierte Studien“, denn dies alles – und der damit verbundene immense Aufwand – ist vermeidbar und gar nicht nötig, wenn man „für die interne Validität“ randomisiert, was der Rat an anderer Stelle auch empfiehlt.

Ideen, eine Kultur, eine Infrastruktur, eine Regulation, eine Finanzierung für pragmatische aussagefähige Studien braucht es – jetzt. Register können dabei hilfreich sein, aber sie sind nicht die unverzichtbare Grundlage. Auf eine blühende „Registerlandschaft“ zu hoffen kostet Zeit, die wir nicht mehr haben. Denn das Defizit schreit seit Jahren zum Himmel. UK kann es, Skandinavien kann es, die Niederlande können es, nur Deutschland schafft es nicht und wird mit den Unklarheiten und Widersprüchen dieses Gutachtens auch weiter hinterherlaufen und sich stattdessen – vergeblich – um „lückenlose Datenerhebung“ bemühen. Das Defizit aber liegt nicht an fehlenden Registern oder fehlenden Daten; es liegt – die Pandemie hat es jedem drastisch vor Augen geführt – zuvorderst an fehlendem Willen.

 

Fazit

Es gibt umfassende Literatur dazu – alten und neuen Datums –, dass der Verzicht auf Randomisierung keine gute Idee ist. Es gibt verschiedenste Konzepte dazu, pragmatische randomisierte Studien in der Regelversorgung, mit oder ohne Verwendung von Routinedaten durchzuführen. Es gibt Dutzende von Beispielen für solche RCT, auch interessante neue Konzepte, etwa die Idee von randomisierten einarmigen Studien [10].

Widersprüchliche und irritierende Aussagen dazu in einem Gutachten zu lesen, das – zu Recht – Evidenzlücken beklagt und zu „Incentivierung“ aufruft, ist enttäuschend. Was dort in Kapitel 4.2.1 ausgebreitet wird, ist weder State of the Art noch ist es irgendwie vereinbar mit den Dingen, die in den beiden anderen Kapiteln und an weiteren Stelen ausgeführt werden, die untereinander wiederum auch nur schlecht vereinbar sind. So bleibt bedauerlicherweise unklar, wie sich der Rat denn nun „belastbare Evidenz“ vorstellt.

Hier ist eine große Chance vertan worden, der anwendungsorientierten und trotzdem belastbaren Forschung zu Arzneimitteln und darüber hinaus Schub zu verleihen und dem grassierenden Unfug, den falschen Versprechungen und der Verschwendung von Forschungsgeldern Einhalt zu gebieten.

PS: Natürlich, in dem Gutachten geht es laut Titel „nur“ um die Preisbildung von neuen Arzneimitteln. Aber genau das könnte ein wesentliches Problem sein: Dass man in Deutschland seit Jahrzehnten über die Preise von Arzneimitteln redet, aber unzureichend über ihren Wert. Der Wert bemisst sich aus Bedarf und Bedarfsdeckung; für letztere wiederum wird hoch-qualitative Evidenz benötigt. Man könnte sich zu der These versteigen, dass ein auf Bedarf und evidenz-gestützte Bedarfsdeckung ausgerichtetes Gesundheitssystem ein viel geringeres Problem mit Preisen hätte. Und auch wenn der Rat sich offenbar nicht getraut hat, eine „vierte Hürde“ zu fordern, so ist diese Empfehlung bemerkenswert: „ … sollte dem GKV-SV ermöglicht werden, nach eingehender Betrachtung der vorliegenden Evidenz über die Erstattungsfähigkeit zu entscheiden …. Dabei sollten neben dem Zusatznutzen des Arzneimittels auch dessen Kosten sowie das Vorhandensein verfügbarer Behandlungsalternativen berücksichtigt werden.“

 

 

Literatur

[1] Behrens J. Der Nutzen meiner Behandlung. Vortragsmanuskript, IQWiG-Herbstsymposium 2015

[2] Windeler J. Externe Validität. Z Evid Fortbild Qual Gesundhwes. 2008;102(4):253-9

[3] Mathes T, Klaßen P, Pieper D. No differences were found between effect estimates from conventional and registry-based randomized controlled trials. J Clin Epidemiol. 2019 Jan;105:80-91

[4] Mc Cord KA, Ewald H, Agarwal A, Glinz D, Aghlmandi S, Ioannidis JPA, Hemkens LG. Treatment effects in randomised trials using routinely collected data for outcome assessment versus traditional trials: meta-research study. BMJ. 2021 Mar 3;372

[5] Windeler J, Antes G; Efficacy und Effectiveness, ZEFQ 95 (2001) 153-155

[6] Collins R, Bowman L, Landray M, Peto R. The Magic of Randomization versus the Myth of Real-World Evidence. N Engl J Med. 2020 Feb 13;382(7):674-678

[7] Senn S. Testing for baseline balance in clinical trials. Stat Med. 1994 Sep 15;13(17):1715-26

[8] Pfaff H, Schmitt J. Reducing uncertainty in evidence-based health policy by integrating empirical and theoretical evidence: An EbM+theory approach. J Eval Clin Pract. 2023 Dec;29(8):1279-1293

[9] Behrens, J „Der EbM+Theory Ansatz – eine Würdigung seiner 6 Annahmen und seiner Risiken und Nebenwirkungen“. Monitor Versorgungsforschung“ (02/25), S. 79–88.

[10] Janiaud P, Ioannidis JPA, Kasenda B, Fretheim A, Goodman SN, Hemkens LG. Single-Arm Trials Can Provide Randomized Real-World Evidence: The Random Invitation Single-Arm Trial Design. Ann Intern Med. 2025 Jul 15. Epub ahead of print

 

 

Lesen Sie vom Autor auch: 

„Dreimol Null es Null bliev Null“, Observer Gesundheit, 21. April 2025,

„Arzneimittel-Zusatznutzen: Sind denn nicht alle ein bisschen Weltmeister?“, Observer Gesundheit, 5. April 2025,

„Forschung mit ePA-Daten – ein Blick in die trübe Zukunft“, Observer Gesundheit, 3. März 2025,

„ePA – die Opt-out-Lösung ist so nicht vertretbar“, Observer Gesundheit, 3. Dezember 2024,

„Traurige Forschungskultur und fehlender politischer Wille“, Observer Gesundheit, 10. November 2021.


Observer Gesundheit Copyright
Alle politischen Analysen ansehen