Dieses Misstrauen gründet sich auf verschiedene als Schwächen wahrgenommene methodische Eigenheiten der RWD-Studien. Die wichtigsten Kritikpunkte betreffen die Vollständigkeit und Qualität der Daten, die ja ursprünglich nicht für eine wissenschaftliche Auswertung gesammelt wurden. Bei vergleichenden RWD-Studien fehlt darüber hinaus eine Randomisierung, was zu einem Ungleichgewicht der zu vergleichenden Gruppen führen kann und mit entsprechenden statistischen Methoden ausgeglichen werden muss.
Tabelle2 fasst die wesentlichsten Unterschiede zwischen RCTs und RWD zusammen.
In einer RWD-Studie kann eine Kohorte wesentlich mehr Informationen enthalten als in einer klinischen Prüfung, denn das experimentelle Vorgehen in einer RCT ist üblicherweise entsprechend dem Prüfplan zeitlich limitiert, und die Patientenanzahl entspricht der zur Beantwortung der primären Hypothese minimal notwendigen Fallzahl. Dagegen können elektronische Gesundheitsdaten eine weitaus längere und umfassendere Krankengeschichte enthalten. Deshalb steht in RWD-Studien ein erheblich größerer Informationsgehalt zum Erkenntnisgewinn zur Verfügung als in klinischen Prüfungen.
Klinische Prüfungen verwerten somit nur einen Bruchteil der gesamten verfügbaren Information über eine Erkrankung. Zur fehlenden Repräsentativität der RCT trägt bei, dass nur ein kleiner Teil der von einer bestimmten Erkrankung betroffenen Patienten die Möglichkeit hat, an einer klinischen Prüfung teilzunehmen. In der Onkologie wird dieser Teil auf ca.2% geschätzt; dennoch werden die Erkenntnisse solcher hochgradig selektierten Patientengruppen für Therapie- oder Zulassungsentscheidungen für die gesamte Indikation verwendet [26]. Während die Daten in klinischen Prüfungen einer intensiven Quelldatenkontrolle unterliegen, verwenden RWD-Studien die Daten so wie sie vorliegen. Insofern unterliegen RWD-Studien verschiedensten Einflüssen, z.B. der Demografie in den Behandlungszentren mit bevölkerungstypischen Begleiterkrankungen, der Verschreibungs- und Dokumentationspraxis. Dies muss bei der Auswertung beachtet werden. Unbekannte Störgrößen lassen sich allerdings nicht durch Adjustierung minimieren,
Geeignete Analysemethoden: von RWD zu RWE
Aus den oben genannten Gründen erfordern RWD-Studien sorgfältige Analysemethoden, um den hohen Anforderungen an wissenschaftlicher Sorgfalt gerecht zu werden, die von RCTs als Goldstandard in den letzten 20 Jahren gesetzt wurden. Nur durch entsprechende qualitätssichernde Maßnahmen und angepasste Analysemethoden kann aus Real-World-Daten (RWD) Real World Evidence (RWE) werden.
Aus der Sicht des Goldstandards RCT haben RWD folgende „Schwächen“, die im Rahmen des Auswertungsprozesses berücksichtigt werden müssen:
Unvollständige Dokumentation
Insbesondere in vergleichenden RWD-Studien kann eine erhebliche Schieflage entstehen, wenn die Dokumentationsdichte in den zu vergleichenden Kohorten unterschiedlich ist. Dies kann der Fall sein, wenn eine orale Therapie mit einer intravenösen Therapie verglichen wird, was in der letzteren Gruppe zu vermehrten Arztbesuchen und dann natürlich zu einer häufigeren Dokumentation potenzieller Beschwerden (z.B. Nebenwirkungen) führen kann. Deshalb muss die Dokumentationsdichte der zu vergleichenden Kohorten gemessen und ggf. berücksichtigt werden.
Unklare Compliance
Die Dokumentation einer Verordnung in der elektronischen Krankenakte stellt nicht automatisch sicher, dass die entsprechende Medikation vom Patienten auch eingenommen wurde. Es schließt auch nicht aus, dass ggf. von einem anderen Leistungsanbieter ein anderes Medikament verschrieben oder die Medikation gewechselt wurde. Oft wird deshalb in den Definitionen der RWD-Kohorte verlangt, dass die entsprechende Medikation mehrfach innerhalb eines gewissen Zeitraums in der Krankenakte zu finden ist.
Falsche Werte
Insbesondere bei Laborwerten können Kommafehler oder Verwechslungen von Einheiten Extremwerte zur Folge haben, die bei der Auswertung die Mittelwerte stark verändern können. Patienten mit medizinisch unsinnigen Extremwerten werden deshalb oft von der Analyse ausgeschlossen.
Störgrößen
Ohne Randomisierung finden sich in den zu vergleichenden Gruppen Charakteristika, die etwa von der Verschreibungspraxis des Arztes oder den Grunderkrankungen der Patienten abhängen. Eine beliebte Methode ist der Ausgleich der Kohorten durch Stratifizierung oder Propensity Scoring unter Berücksichtigung aller möglichen Unterschiede (Alter, Begleiterkrankungen, Laborwerte etc.).
Die Rekrutierung und Durchführung einer RCT kann - je nach Therapiegebiet und Beobachtungsdauer - viele Monate bis mehrere Jahre dauern [27], während RWDs für retrospektive Studien unmittelbar verfügbar sind. Im Vergleich zu RCTs können RWD-Studien deshalb schnell, einfach und kosteneffizient durchgeführt werden. Dies kann dazu verführen, verschiedene Auswertungsstrategien zu entwickeln, die Analysen durchzuführen und dann nur dasjenige Ergebnis weiter zu verwerten, das den Erwartungen entspricht. Ein solches Verhalten wird üblicherweise als „data dredging“, „fishing expeditions‘, „p-hacking“ oder „selective publi- shing“ bezeichnet.
Um solche eindeutig abzulehnenden Praktiken zu verhindern, ist es notwendig, wie in klinischen Prüfungen proaktiv einen Prüfplan mit allen Definitionen und Analysen zu beschreiben, zu dokumentieren und sich dann daran zu halten. Interne Prozesse (SOP) und verwendete Analyseplattformen müssen die Dokumentation der einzelnen Schritte (Audit Trail) entsprechend unterstützen. Verschiedene Fachgesellschaften entwickeln derzeit entsprechende Leitlinien. Abbildung3 zeigt ein Beispiel der International Society of Pharmacoeconomics and Outcome Research (ISPOR) und International Society for Pharmacoepidemiology (ISPE) [28].
Einerseits bieten viele Datenquellen unvollständige Daten minderer Qualität, die zusammen mit naiv simplifizierter Auswertung zu gravierenden Fehlschlüssen führen können [29]. Andererseits können nicht alle hochkomplexen Auswertemethoden, die die biostatistische Wissenschaft anbietet und die oft für RCTs verfeinert wurden, auf RWD angewandt werden. Viele Methoden können durch Datenmanipulation ihrerseits die Ausgewogenheit gefährden [30] oder die Kohorten in ähnlicher Weise, wie es in klinischen Prüfungen zu sehen ist, reduzieren und damit unrepräsentativ machen. Die medizinische Wissenschaft wird eine Balance zwischen leichtfertiger Akzeptanz von RWD-Studien minderer Qualität und übertrieben hohen Standards, die dann wenig mit der Abbildung der medizinischen Realität zu tun haben, finden müssen [31,32].
Mögliche Anwendungsbereiche für RWD
Aus den oben genannten Gründen haben RWD-Studien noch nicht den Grad der Glaubwürdigkeit erreicht, den man von RCTs mit den entsprechenden multiplen Vorschriften und Richtlinien gewöhnt ist. Deshalb wird die Durchsetzung von RWE-Analysen noch eine längere Zeit mit großen Widerständen kämpfen müssen. Die Verwendung von RWD im Zulassungsbereich beschränkt sich derzeit noch auf Einzelfälle im Bereich der Medizinprodukte und seltene Indikationserweiterungen in der Onkologie [33, 34]. RWD-Studien werden hauptsächlich für hypothesengenerierende Projekte und zur Identifizierung möglicher Sicherheitssignale in der Arzneimitteltherapiesicherheit eingesetzt.
Auch wenn spezifische Richtlinien zur Verwendung von RWD/RWE-Studien im Zulassungsprozess noch fehlen, so gibt es bereits jetzt für die pharmazeutische Industrie und für CROs eine Fülle an Anwendungsbereichen für RWD, insbesondere dann, wenn die Durchführung einer randomisierten klinischen Prüfung zu kostspielig oder zu zeitaufwendig wäre (Tab. 3).
Je stärker die Digitalisierung des Gesundheitswesens voranschreitet und je verfügbarer RWD werden, umso dringlicher stellt sich die Frage, inwieweit RWD/RWE in Konkurrenz zu RCT treten werden.
Auch wenn man RCTs als zeitaufwendig, kostspielig und in ihren Ergebnissen als unrepräsentativ betrachtet, so kann man, insbesondere in der Arzneimittelentwicklung vor der Zulassung, nicht auf den RCT-typischen wissenschaftlich korrekten Nachweis der Wirksamkeit und Sicherheit verzichten.
Allerdings werden RWE-Studien zunehmend in Phase 4 eingesetzt, um die Langzeitsicherheit oder neue Indikationen zu untersuchen, oder um einen zusätzlichen Nutzen eines Arzneimittels, der über die ursprüngliche Wirkung hinausgeht, nachzuweisen.
Verschiedene Publikationen haben bereits gezeigt, dass RWD/RWE-Studien klassische randomisierte Outcome-Studien reproduzieren und damit ersetzen können [35-38]. Als RWE durchgeführt, stünden die Erkenntnisse solcher Langzeitstudien wesentlich früher zur Verfügung. Für die betroffenen Patienten kann das eine frühere Behandlung nach neuesten Erkenntnissen und für die pharmazeutische Industrie eine erhebliche Kostenersparnis bedeuten. Idealerweise bietet eine sich gegenseitig ergänzende Kombination aus RCT mit deren wissenschaftlicher Korrektheit und realitätsnahen RWD/RWE ein holistisches Gesamtbild über den Wissensstand einer Erkrankung oder einer Therapie ab.
Wissenschaftliche Verwendung von Big Data in der medizinischen Forschung: allgemeine Überlegungen
Tiefergehende rechtliche oder ethische Überlegungen über die Verwendung von Big Data im Gesundheitswesen würden den Rahmen dieses wissenschaftlich orientierten Beitrags sprengen. Da jedoch Diskussionen über ein „Eigentumsrecht“ der Patienten an Gesundheitsdaten im Gange sind [39, 40], sei die Thematik hier kurz angesprochen.
Die Frage kann aus einer ethischen oder einer gesetzlichen Definition des Begriffs „Eigentum“ angegangen werden. Rechtliche Aspekte, wie sie sich in Bezug auf Datenschutz, Datenweiterleitung oder den Analyseprozess ergeben, müssen bei der Verwendung von Patientendaten für Forschungszwecke selbstverständlich berücksichtigt werden. Die Einhaltung aller bestehenden Vorschriften hinsichtlich des Datenschutzes ist natürlich ein Muss. Wie sieht es jedoch mit moralischen Überlegungen aus, die ja nicht nur individuelle Meinungen repräsentieren, sondern oft auch von Interessensgruppen in die Gesetzgebung eingebracht werden?
Sehen wir uns hierzu RWD als Quelle des Erkenntnisgewinns und medizinischer Erfahrungen an und stellen uns ein Arzt vor, der einen Patienten vor sich hat. Er kann bei einer Beratung eines Patienten auf verschiedene Quellen der Erkenntnis zurückgreifen, um eine optimale Therapieentscheidung zu treffen: Erinnerungen an das Medizinstudium, kürzlich gelesene Literatur oder eigene Erfahrungen mit Patienten mit ähnlicher Symptomkonstellation. Er wird möglicherweise auch Kollegen nach deren Erfahrungen fragen. Der mit Diuretika behandelte Patient des Arztes leidet an Diabetes Mellitus Typ 2 und Hypokaliämie. Unter der Annahme, dass ein Arzt etwa 50 Patienten am Tag behandelt [41], einer Diabetesprävalenz von ca. 10% im Krankengut und einer Gedächtnisleistung von etwa 10 medizinisch relevanten Fakten pro Patient, kann ein Arzt während eines Jahres auf etwa 10 000 Erfahrungswerte (klinische Fakten) zurückgreifen, die bei einer weiteren Therapieentscheidung helfen könnten. Dem stehen in einer gut dokumentierten kommerziell verfügbaren Sammlung elektronischer Krankenakten 270000 hypokaliämische Patienten mit Diabetes Typ 2 unter Diuretika gegenüber, die über 1,2 Mrd. medizinische Fakten über mehrere Jahre enthalten [42]. Niemand will die Gedächtnisleistung oder den Erfahrungsschatz. der Ärzte in Zweifel ziehen, aber die Erkenntnisse, die aus RWD zur wissenschaftlichen Auswertung oder individuellen Therapieentscheidung herangezogen werden können, sind enorm: Es handelt sich um einen riesigen kollektiven Erfahrungsschatz der Ärzteschaft! Ethische und wissenschaftlichen Aspekte fügen nun eine zusätzliche Nuance hinzu. Ein Blick auf den Prozess von der Datenerfassung bis zur Veröffentlichung einer wissenschaftlichen Arbeit zeigt, dass jeder Schritt den wissenschaftlichen Wert der Daten erhöht (Abb. 4):
- Patientendaten werden vom Patienten selbst, vom Labor oder von anderen Untersuchern dokumentiert. Die Daten erfahren jedoch erst einen Wert durch die medizinische Interpretation des Arztes.
-
Gesundheitsdaten verschiedenster Art und aus verschiedensten Quellen werden durch Netzwerke zusammengeführt (selbstverständlich anonymisiert) und erhalten dadurch eine epidemiologisch-wissenschaftliche Wertsteigerung.
-
Wissenschaftler analysieren die Daten, interpretieren sie und veröffentlichen die Ergebnisse.
-
Mediziner informieren sich über die Erkenntnisse und wenden sie in der Praxis an.
-
Patienten profitieren davon.
Jeder Schritt in diesem Kreis trägt also zum medizinischen Fortschritt bei, die Wertsteigerung kommt letztendlich wieder den Patienten zugute. Alle Patienten, die in der Zukunft an einer bestimmten Erkrankung leiden, sollten von den Daten jener Patienten profitieren können, die heute von der gleichen Erkrankung betroffen sind.
Fallzahlplanung – weshalb ein adäquater Stichprobenumfang für klinische Studien unumgänglich ist
Sei es bei einer experimentellen klinischen Studie, in der epidemiologischen Forschung oder der Grundlagenforschung: Um Aussagen und Schlussfolgerungen zu treffen, werden zunächst unabhängig von der Fragestellung Daten erhoben. Dabei ist eine Vollerhebung, d. h. ein Einschluss aller theoretisch möglichen Beobachtungen, nur in den seltensten Fällen sinnvoll. Ökonomische, zeitliche und ethische Aspekte sind wichtige Gründe, lediglich eine repräsentative Stichprobe zu ziehen. Denn je mehr Beobachtungen, umso mehr Ressourcen, umso höherer finanzieller Aufwand, und umso länger dauert die Erhebungsphase. Werden allerdings zu wenige Beobachtungen in die Analysen eingeschlossen, so können tatsächlich vorhandene Effekte nicht nachgewiesen werden. Statistische Tests mit den Daten einer zu kleinen Stichprobe ergeben keine signifikanten Ergebnisse, obgleich die Effekte womöglich tatsächlich vorhanden sind. Die Wahrscheinlichkeit für einen derartigen Worst Case kann bei professioneller Planung des Stichprobenumfangs in Zusammenarbeit mit Medizinern in engen Grenzen gehalten werden.
Wie groß muss die Stichprobe sein, um valide Ergebnisse zu erhalten? Zur Beantwortung dieser Frage wird vorab eine differenzierte Fallzahlplanung durchgeführt.
Der benötigte Stichprobenumfang wird dabei letztlich von 3 Faktoren bestimmt:
1. Gewählte Fehlerwahrscheinlichkeiten
Wird für die Analyse eine Stichprobe verwendet, werden die gewonnenen Aussagen auf die Grundgesamtheit übertragen (induktive Statistik). Mit dieser Art des Vorgehens müssen zwei Arten von Falschaussagen in Kauf genommen werden: Der Fehler erster Art tritt ein, wenn Hypothesen oder Aussagen in der Stichprobe nachweisbar sind, obwohl diese für die Grundgesamtheit nicht gelten. Ein Fehler 2. Art entsteht, falls die Hypothesen oder Aussagen in der Stichprobe abgelehnt werden, in der Grundgesamtheit allerdings zutreffen.
Ziel jeder Erhebung ist es, beide Fehler so gering wie möglich zu halten. Je kleiner die Fehler erster und zweiter Art festgesetzt werden, umso höher ist der erforderliche Stichprobenumfang.
2. Effektgröße als weitere Determinanten des erforderlichen Stichprobenumfangs
Die Effektgröße stellt eine weitere wichtige Komponente für den erforderlichen Stichprobenumfang dar. Dabei ist in der Planungsphase der relevante Mindesteffekt von Interesse. Der relevante Mindesteffekt ist immer auf den primären Endpunkt bezogen. Die Zusammensetzung der Effektgröße variiert somit je nach Fragestellung. Im einfachen zwei-Gruppen Vergleich eines stetigen Merkmals setzt sich die Effektgröße aus der Differenz der Mittelwerte und der zugehörigen Streuung zusammen. Bei Survival-Analysen spielen dagegen Hazardraten für die Berechnung der Effektgrößen eine wichtige Rolle. Die Festlegung erfolgt anhand von anwendungsbezogenen Vorüberlegungen. Die Informationen dafür können aus eigenen Erfahrungen, Publikationen oder Pilotstudien stammen.
Je geringer der nachzuweisende Mindesteffekt ist, umso höher muss der dafür notwendige Stichprobenumfang festgelegt werden.
3. Effektive Fallzahl
Die Fallzahlplanung gibt an, wie viele Beobachtungen mindestens für die Auswertung zur Verfügung stehen müssen. Aufgrund von Dropouts entspricht dies nicht der Anzahl der zu rekrutierenden Beobachtungen. Dropouts sind Personen, die die Datenerhebungsphase nicht wie vorgesehen zu Ende bringen. Bei Befragungen sind dies Befragte, die den Fragebogen nicht vollständig ausfüllen bzw. frühzeitig abbrechen. In klinischen Studien spricht man von Studienabbrechern, falls Studienteilnehmer an der Studie nicht bis zum Studienende nach Protokoll teilnehmen. Der Anteil dieser Dropouts muss vor Beginn der Studie abgeschätzt werden und im Rahmen der Fallzahlplanung berücksichtigt werden. Müssen beispielsweise 500 Beobachtungen für die Auswertung zur Verfügung stehen bei einer Dropoutrate von 20 %, so müssen 500 × 1,2 = 600 Beobachtungen in die Studie eingeschlossen werden.
Je höher die Dropoutrate, umso höher ist die Anzahl zu rekrutierender Beobachtungen.
Durchführung von Fallzahlberechnungen
Fallzahlberechnungen werden in enger Zusammenarbeit von Statistikern und Anwendern durchgeführt. In den seltensten Fällen kann der nachzuweisende relevante Unterschied in eine Zahl gefasst werden. Mit Sensitivitätsanalysen werden oftmals relevante Bereiche näher untersucht und infrage kommende Werte umgrenzt. Auch die Machbarkeit und faktisch leistbare Rekrutierungsrate in Bezug auf den zeitlichen Rahmen müssen dabei berücksichtigt werden. Erfahrende und professionelle Statistiker erstellen in engem Austausch mit den Anwendern dokumentierte Fallzahlberechnungen. Software zur Fallzahlplanung kann dabei einen kleinen Teil der erforderlichen Abwägungen übernehmen.
Zusammenfassung
Fallzahlplanung im Rahmen einer statistischen Beratung vor einer Datenerhebung stellt sicher, dass relevante Mindesteffekte nachgewiesen werden können, sofern Sie tatsächlich vorhanden sind. Gleichzeitig wird der Stichprobenumfang so niedrig gehalten, dass Ressourcen nicht übermäßig gebunden werden und valide Ergebnisse zeitnah vorliegen können. Auch ethische Aspekte in klinischen Studien werden berücksichtigt. Fallzahlplanungen erfolgen maßgeschneidert in enger Zusammenarbeit von Statistikern und Anwendern.
Autor:
Robert Grünwald
Inhaber
Novustat.com
Statistik Service von Experten.
——————————————————
Mail: info@novustat.com
Phone: +49 211 99346512