KI im Medizinsektor

Die zu Google gehörende Firma DeepMind hat mit Med-PaLM ein Sprachmodell entwickelt, das darauf trainiert ist, Antworten auf medizinische Fragen zu geben. Zum Teil schneidet die künstliche Intelligenz dabei ähnlich gut ab wie Fachleute – für den Einsatz in der Praxis gibt es laut Forscherinnen und Forschern aber noch zu viele Ungewissheiten.

Zu den bekanntesten großen KI-Sprachmodellen zählt Chat-GPT der Firma OpenAI. Anhand von großen Datenbanken ist es mit dem Modell möglich, eine Vielzahl an Fragen zu beantworten und aus wenigen Inputs gut verständliche Texte zu generieren. Ähnliches möchte die zu Google gehörige KI-Schmiede DeepMind nun in der Medizin erreichen.

Das Potenzial derartiger Sprachmodelle zur Beantwortung von medizinischen Fragen sei jedenfalls gegeben, meint Clemens Heitzinger, einer der Leiter des Zentrums für künstliche Intelligenz und maschinelles Lernen an der TU-Graz. „Der Vorteil ist, dass jeder damit umgehen kann und die Patientinnen und Patienten in natürlicher Sprache mit diesen Modellen interagieren können“, erklärt er gegenüber science.ORF.at und fügt hinzu: „Man muss aber natürlich sehr darauf achten, wie zuverlässig die KI-generierten Empfehlungen und Antworten tatsächlich sind.“

Heitzinger war an dem Modell von DeepMind nicht beteiligt, hat aber selbst an der Entwicklung eines anderen KI-Modells gearbeitet, das Behandlungsschritte für Patientinnen und Patienten mit Blutvergiftung vorschlägt und so deren Überlebenschancen erhöht.

Neues Beurteilungsverfahren

Um die Leistung von KI-Sprachmodellen zu überprüfen, nutzen Fachleute oft Beurteilungsverfahren in Form von Benchmarks. Die Tests erlauben es herauszufinden, wie hilfreich ein Modell in der Praxis sein könnte.

In einer aktuell im Journal „Nature“ präsentierten Studie merken die Fachleute der Firma DeepMind aber an, dass bisherige Benchmarks oft nur begrenzte Aussagekraft in der Medizin haben. Die meisten davon würden die Leistung der Sprachmodelle nur in einzelnen medizinischen Tests beurteilen. Die Expertinnen und Experten stellen daher eine neue Benchmark vor: MultiMedQA. Diese setzt sich aus insgesamt sieben Datensätzen zusammen – sechs davon mit Fragen aus der medizinischen Forschung und von Patientinnen und Patienten, und ein neuer Datensatz aus über 3.000 medizinischen Fragen, nach denen häufig online gesucht wurde.

Überarbeitetes KI-Modell

Auf der Basis des Google-Sprachmodells PaLM haben die Expertinnen und Experten von DeepMind ein überarbeitetes Modell für medizinische Fragen erstellt, das bei den meisten Datensätzen der MultiMedQA-Benchmark mindestens so gut abschneidet wie andere moderne KI-Sprachmodelle. Getestet wurde das neue Modell mit dem Namen Med-PaLM unter anderem mit Fragen im Stil von medizinischen Zulassungsexamen in den USA. Dabei war es im Durchschnitt 17 Prozent genauer als vergleichbare Sprachmodelle.

Bei einer Evaluation durch Klinikerinnen und Kliniker schnitt Med-PaLM in vielen Aspekten sogar ähnlich gut ab wie medizinische Fachleute. Neun Ärztinnen und Ärzten schätzten die Leistung des Modells ein. Jeweils eine Person beurteilte dabei eine Antwort des Modells auf zufällige Fragen aus den Benchmark-Datensätzen. Daraus ergab sich, dass 92,6 Prozent der Antworten von Med-PaLM dem wissenschaftlichen Konsens entsprechen – nahe an den 92,9 Prozent der Antworten von Klinikerinnen und Klinikern.

In vielen anderen Bereichen reichte die Qualität der KI-generierten Informationen aber noch nicht an die Expertise von medizinischem Fachpersonal heran. Knapp 19 Prozent der Antworten von Med-PaLM beinhalteten inkorrekte oder unpassende Inhalte – bei Fachleuten war das nur bei 1,4 Prozent der Antworten der Fall.

Kommerzielle vs. wissenschaftliche Interessen

Der Grund dafür liegt laut Heitzinger einzig in den für das Training des Modells verwendeten Daten: „Diese großen Sprachmodelle sind davon abhängig, wie gut die Datensätze sind, mit denen gelernt wird.“ Um zu verstehen, warum das Modell etwa unpassende und inkorrekte Inhalte in Antworten einbaut, müssten die verwendeten Datensätze genau überprüft werden.

Für die Forschung wäre es daher generell wichtig, Einblick in diese Daten zu bekommen. Die kommerziellen Interessen großer Unternehmen sind dabei aber oft im Weg, auch bei Med-PaLM sind die Trainingsdaten nicht einsehbar. „Am Ende des Tages sind das dann natürlich auch Geschäftsgeheimnisse und da wird sich nicht jede Firma gerne in die Karten schauen lassen“, so Heitzinger.

Erste Regulierungsversuche

Dass die Datensätze verborgen bleiben, ist nicht nur in der Medizin ein Problem. Erst vor Kurzem zeigten Schweizer Forscherinnen und Forscher auf, dass KI-Sprachmodelle überaus überzeugende Falschmeldungen generieren können, die auf Plattformen wie Twitter kaum von den Meldungen realer Menschen unterscheidbar sind.

Um den Einsatz von KI künftig zu regulieren, plant das Europäische Parlament den “AI-Act“. Dabei handelt es sich um das weltweit erste umfassende KI-Gesetz, bei dem KI in vier Bereiche eingeteilt wird – abhängig von dem Risiko, das von den unterschiedlichen Systemen ausgeht. Als besonders riskant gilt Gesichtserkennungssoftware zur Echtzeitüberwachung der Bevölkerung – ihr Einsatz soll komplett untersagt werden. Welches Risiko von Sprachmodellen wie Chat-GPT und auch Med-PaLM ausgeht, ist hingegen noch nicht genau geregelt.

Noch viel Arbeit nötig

Für einen Einsatz von Med-PaLM im medizinischen Alltag ist es jedenfalls noch zu früh – das ist auch den Entwicklerinnen und Entwicklern von DeepMind bekannt. Noch gebe es zu viele Limitationen und der Ansatz könne noch in einigen Bereichen verbessert werden. Die Antworten von Klinikerinnen und Klinikern sowie von Med-PaLM wurden in den Versuchen etwa jeweils nur von einer einzigen Person beurteilt, was das Ergebnis verfälschen könnte. Auch die Angabe von medizinischen Quellen müsse noch weiter verbessert werden.