Der neue Leitfaden CMDE 2023 Nr. 38 der NMPA beschreibt die Erwartungen der Behörde an die klinische Bewertung von KI-basierter Software für diagnostische Medizinprodukte in China. Er enthält Empfehlungen zum Design klinischer Studien, Studienobjekten, Bewertungsmetriken, klinischen Referenzen, Stichprobengrößen und Statistiken für KI-basierte Softwaregeräte. Dieser Blog-Eintrag bietet eine kurze Zusammenfassung des Leitfadens auf Deutsch.
Am 7. November 2023 hat das Zentrum für die Bewertung von Medizinprodukten (CMDE) der chinesischen Staatlichen Verwaltung für Medizinprodukte (NMPA) den Leitfaden „Richtlinien für die Registrierungsprüfung der klinischen Bewertung von KI-gestützten diagnostischen Medizinprodukten (Software)“ (CMDE 2023 Nr. 38) veröffentlicht. Das Dokument richtet sich an Hersteller von Software für KI-gestützte diagnostische Medizinprodukte (MDSW) sowie an die Prüfer der NMPA, um die Vorbereitung und Überprüfung der klinischen Bewertung dieser Art von MDSW anzuleiten.
Anwendungsbereich
Diese Leitlinie konzentriert sich auf KI-basierte MDSW zur Unterstützung klinischer Entscheidungen. Dies bezieht sich auf MDSW, die entweder eigenständig oder integriert sind, auf KI-Algorithmen basieren und Funktionen wie Mustererkennung und Datenanalyse beinhalten können. Diese MDSW, die die Aufmerksamkeit des Arztes durch Methoden wie Identifikation, Markierung, Hervorhebung usw. auf potenzielle Bereiche von Anomalien/Läsionen lenken, unterstützen den Arzt bei der entsprechenden diagnostischen und therapeutischen Entscheidungsfindung. Diese MDSW können auch nicht entscheidungsunterstützende Funktionen umfassen, wie z. B. Berichterstellung, Vergleich von Vorher-Nachher-Bildern, Segmentierung normaler anatomischer Strukturen, Dimensionsmessung, CT-Wertmessung und nichtklinische Funktionen.
Es ist zu beachten, dass die folgenden Arten von KI-gestützten MDSW nicht in den Anwendungsbereich dieses Leitfadens fallen
- MDSW zur Identifizierung der Malignität, des Krankheitsstadiums oder des Subtyps
- MDSW zur Vorhersage der Wahrscheinlichkeit des Auftretens der Erkrankung
- MDSW zur Unterstützung der Erkennung und Unterscheidung mehrerer Läsionen gleichzeitig
- MDSW zur Triage und Überweisung
- MDSW in Kombination mit In-vitro-Diagnostika
Die Hersteller solcher MDSW können jedoch die in diesem Leitfaden beschriebenen einschlägigen Grundsätze als Referenz verwenden.
Wichtige Schlussfolgerungen
- Studiendesign
- Klinische Studien dieser MDSW sollten sich auf ihre diagnostische Leistungsfähigkeit konzentrieren. Darüber hinaus können auch ihre Benutzerfreundlichkeit und Sicherheit untersucht werden.
- Da die klinische Bedeutung dieser KI-gestützten MDSW in der Verbesserung der Erkennungsgenauigkeit durch den Arzt liegt, sind in der Regel kontrollierte Studien erforderlich. Abhängig von den Produkteigenschaften und der klinischen Praxis können relevante Studiendesigns randomisierte Parallelkontrollen, Cross-over-Selbstkontrollen oder Multi-Reader-Multi-Case (MRMC)-Studien umfassen.
- Untersuchungsobjekte
- Als Studienobjekte werden in der Regel Bildgebungsdaten der geplanten Population verwendet. Es wird empfohlen, Bildgebungsdaten prospektiv für klinische Studien von MDSW zur Erkennungsunterstützung durch Echtzeit-Bildgebung zu sammeln.
- Die Bildgebungsdaten sollten unabhängig von den Daten sein, die für die Entwicklung des Produkts und seiner Vorgänger (d. h. Trainings- und Testsets) verwendet wurden.
- Die Daten sollten unter Berücksichtigung des Krankheitsspektrums gesammelt werden, z. B. Subtypen und Stadien.
- Wenn vorhandene klinische Daten verwendet werden, sollten umfassende krankheitsbezogene Informationen gesammelt werden.
- Aufgrund der Variabilität der ärztlichen Leistung und ihrer Wechselwirkung mit der Variabilität der Patienten und der KI ist es im Allgemeinen ratsam, die Ärzte, die das MDSW unterstützen soll, als Teilnehmer in die Studie einzubeziehen.
Für nicht in Echtzeit bildgebende Unterstützungsprodukte wird ein MRMC-Design empfohlen, da weniger Stichproben erforderlich sind.
- Bewertungsmetriken
- Bei der Auswahl der Endpunkte sollten die Produkteigenschaften berücksichtigt werden. Im Allgemeinen sind Metriken wie Sensitivität, Spezifität, Receiver-Operating-Characteristic (ROC)-Kurve oder deren Ableitungen weniger von Unterschieden in der Krankheitsinzidenz betroffen und daher vorzuziehen.
- Unabhängig von der Wahl der Metrik sollten klinische Studien das Gesamteffektivitätsdesign berücksichtigen, z. B. Fläche unter der ROC-Kurve, überlegene Sensitivität bei nicht unterlegener Spezifität oder verbesserte Detektionsraten.
- Klinische Referenz (Wahrheit)
- Hersteller sollten detaillierte Informationen über die Auswahl, die Konstruktionsmethoden und die Begründung der verwendeten klinischen Daten vorlegen. Zu den verfügbaren Methoden für die Erstellung klinischer Referenzen gehören die klinische Bestätigung und die Expertenbeurteilung. Der Leitfaden enthält detaillierte Anforderungen für die Erstellung jeder Art von Referenz.
- Schätzung der Stichprobengröße und statistische Analyse
- Bei der Schätzung der Stichprobengröße sollten das Studiendesign, die primären Endpunkte und die statistischen Anforderungen berücksichtigt werden. Die Hersteller sollten Informationen über Berechnungsformeln, relevante Parameter, Begründungen und die verwendete statistische Software vorlegen.
- Für die Berechnung der Stichprobengröße von Parallelkontrollstudien sollten sich die Hersteller auf die NMPA Guideline „Richtlinien für das Design klinischer Prüfungen für Medizinprodukte“ (CMDE 2018 No. 6) beziehen.
- Bei MRMC-Studien ist die geplante statistische Analysemethode (z. B. Obuchowski-Rockette etc.) bei der Berechnung der Stichprobengröße zu berücksichtigen. Detaillierte Erläuterungen hierzu finden sich in der Anleitung.
- Alle Patienten- und Arztdaten müssen in die statistische Analyse einbezogen werden. Zusätzlich zu den Punktschätzern sind 95%-Konfidenzintervalle für Sensitivität, Spezifität und AUC zu berechnen. Zur Beurteilung der klinischen Signifikanz ist ein Überlegenheits-/Nichtunterlegenheitsvergleich mit der Kontrollgruppe durchzuführen.
- Bewertung von Nicht-Entscheidungsfunktionen
- Die Sicherheit und Wirksamkeit von Nicht-Entscheidungsfunktionen kann auf der Grundlage von Verifizierungs- und Validierungsdaten und/oder Daten aus klinischen Prüfungen bewertet werden.
- Die Verifizierungs- und Validierungsdaten für diese Funktionen können einzeln oder in Kombination durch Testsätze, Belastungstests, Gegentests oder Tests auf der Grundlage einer qualitativ hochwertigen Datenbank gewonnen werden. Den Herstellern wird empfohlen, sich bei der Erstellung und Verwendung von Verifizierungs- und Validierungsdaten für die klinische Bewertung an den Technischen Leitlinien für die klinische Bewertung von Medizinprodukten (CMDE 2021 Nr. 73) zu orientieren.
- Wenn klinische Studien verwendet werden, können diese Funktionen als sekundäre Endpunkte auf der Grundlage klinisch etablierter Referenzstandards oder allgemein anerkannter akademischer Methoden (z. B. Dice-Ähnlichkeitskoeffizient, fiktiver Registrierungsfehler usw.) untersucht werden.
- Weitere Aspekte, die bei der Planung klinischer Studien zu berücksichtigen sind
- Verzerrungen können durch eine angemessene Schulung der Ärzte, die die Bilddaten auswerten, vor Beginn der Studie wirksam reduziert werden.
- Für die Bildauswertung ist eine angemessene Qualitätskontrolle erforderlich:
- Bildauswerter sollten Studienbilder ohne klinische Informationen interpretieren.
- Die Bildauswerter werden so ausgewählt, dass sie die vorgesehenen Anwenderqualifikationen und -einstellungen repräsentieren.
- Die Bildauswerter sind nicht über die Diagnose, die Referenzstandards und die klinischen Daten der Studienproben informiert.
- Ein Cross-over-Auswertungsdesign mit Wash-out-Phasen zwischen den Auslesungen ist zu erwägen.
- Die Lesereihenfolge der Proben sollte für jeden Auswerter unterschiedlich sein.
- In die Gebrauchsanweisung aufzunehmende Informationen über die klinische Bewertung
- Die Gebrauchsanweisung sollte in der Regel die folgenden Informationen über die klinische Bewertung enthalten:
- Zusammenfassung der klinischen Bewertung - Basisinformationen, Messwerte, Ergebnisse.
- Bestimmungsgemäßer Gebrauch - Indikationen zur Unterstützung der Erkennung, Bildgebungsmodalitäten, Hauptfunktionen, klinische Rolle.
- Anforderungen an die Datenerfassung während der klinischen Anwendung - Produkte, Prozesse.
- Darüber hinaus sollten die folgenden wesentlichen Informationen enthalten sein:
- Ergebnisse der klinischen Prüfung und ggf. Untergruppen
- Spezifizierte Modalitäten und Indikationen
- Weitere wichtige Funktionen des Produkts (z. B. Bildgebung, Verarbeitung, Messung und Analyse)
- Klinische Rolle des Produkts (kann nicht ausschließlich für die klinische Diagnose und Entscheidungsfindung verwendet werden).
Darüber hinaus enthält der Leitfaden eine detaillierte Analyse der klinischen Bewertungsstrategie für zwei fiktive MDSW-Beispiele (Lungenknodendetektion mittels CT und Polypendetektion mittels Koloskopie), um die beschriebenen Prinzipien in der Praxis zu veranschaulichen.
Es ist wichtig anzumerken, dass die CMDE betont hat, dass der Leitfaden vor dem Hintergrund der aktuellen Vorschriften und Normen sowie dem Stand der Technik in der MDSW-Technologie formuliert wurde. Da sich Vorschriften, Normen und Technologie weiterentwickeln, werden die relevanten Inhalte des Leitfadens entsprechend aktualisiert. Hersteller sollten die weitere Entwicklung dieses Leitfadens aufmerksam verfolgen.
Bitte kontaktieren Sie uns, wenn Sie Fragen zu diesem Leitfaden oder allgemeine Fragen zur regulatorischen Bewertung von MDSW für den Markteintritt in China haben. Qserve hat ein spezialisiertes lokales Team in China, um Sie bei regulatorischen, qualitativen und klinischen Angelegenheiten in China zu unterstützen.