ChatGPT übertrifft Ärzte in Empathie: Eine Studie zur Patientenwahrnehmung

Einleitung

Seit seiner Einführung hat ChatGPT im medizinischen Bereich große Aufmerksamkeit erregt. In der deutschen ärztlichen Staatsprüfung erzielte ChatGPT beispielsweise eine Durchschnittspunktzahl von 74,6 %, was die Leistung menschlicher Studenten übertraf. Es beantwortete 88,1 % von 630 Fragen korrekt. In der Praxis gab ChatGPT auf 284 medizinische Anfragen aus 17 Fachgebieten recht genaue Antworten und verbesserte seine Leistung durch bestärkendes Lernen kontinuierlich. Im Bereich der orthopädischen Sportmedizin erreichte es eine Genauigkeit von 65 % bei der Beantwortung von Beispielfragen.

Forschungshintergrund und -methoden

Um das Anwendungspotenzial von ChatGPT im medizinischen Bereich weiter zu untersuchen, führten Forscher der BG Klinik Ludwigshafen eine Vergleichsstudie durch. Sie wählten 100 gesundheitsbezogene Fragen aus fünf großen medizinischen Fachgebieten – Unfallchirurgie, Allgemeinchirurgie, Hals-Nasen-Ohrenheilkunde, Pädiatrie und Innere Medizin – und verglichen die Antworten von ChatGPT mit denen erfahrener Experten (EP). Die Ergebnisse zeigten, dass ChatGPT in Bezug auf Empathie und Praktikabilität besser abschnitt als die Experten.

Um die Wahrnehmung von Patienten gegenüber einem KI-Assistenten umfassend zu bewerten, verwendeten die Forscher ein mehrstufiges Verfahren:

Fragensammlung: 100 öffentliche gesundheitsbezogene Fragen wurden von einer patientenorientierten Online-Plattform gesammelt, die die oben genannten fünf medizinischen Fachgebiete abdeckte, wobei 20 Fragen pro Fachgebiet ausgewählt wurden.
Antwortgenerierung: Mit ChatGPT-4.0 wurden Antworten auf diese 100 Fragen generiert und mit den Antworten von Experten derselben Plattform verglichen.
Anonymisierung: Alle Fragen und Antworten wurden anonymisiert und in 10 Datensätze mit jeweils 10 Fragen verpackt.
Bewertung: Diese Datensätze wurden an Patienten und Ärzte zur Bewertung verteilt. Patienten konzentrierten sich hauptsächlich auf die Empathie und Praktikabilität der Antworten, während Ärzte neben der Empathie und Praktikabilität auch die Richtigkeit und potenziellen Schäden bewerteten.

Um eine faire Bewertung sicherzustellen, wussten alle Teilnehmer während des Bewertungsprozesses nicht, ob die Antworten von ChatGPT oder von Experten stammten. Darüber hinaus sammelte das Forschungsteam grundlegende Informationen wie Alter und Geschlecht der Patienten sowie die Berufserfahrung der Ärzte, um den Einfluss dieser Faktoren auf die Bewertungsergebnisse weiter zu analysieren.

Analyse der Bewertungsergebnisse - Patientenbewertung

Patienten bewerteten die Antworten von ChatGPT im Allgemeinen sehr positiv.

Empathie: ChatGPT erhielt eine durchschnittliche Bewertung von 4,2 (Standardfehler 0,15), während die Experten eine durchschnittliche Bewertung von 3,8 (Standardfehler 0,18) erhielten.
Praktikabilität: ChatGPT erhielt eine durchschnittliche Bewertung von 4,1, während die Experten eine durchschnittliche Bewertung von 3,7 erhielten.

Diese Ergebnisse zeigen, dass Patienten im Allgemeinen der Meinung waren, dass die Antworten von ChatGPT empathischer und praktischer waren als die Antworten von Experten. Weiterführende Analysen zeigten, dass Alter und Geschlecht der Patienten keinen signifikanten Einfluss auf die Bewertungsergebnisse hatten. Das Bildungsniveau und der sozioökonomische Status der Patienten könnten jedoch einen Einfluss auf ihre Akzeptanz von ChatGPT haben. Da diesbezüglich keine Daten erhoben wurden, ist eine detaillierte Analyse nicht möglich.

Ärztebewertung

Auch die Ärzte bewerteten die Antworten von ChatGPT positiv.

Empathie: ChatGPT erhielt eine durchschnittliche Bewertung von 4,3, die Experten von 3,9.
Praktikabilität: ChatGPT erhielt eine durchschnittliche Bewertung von 4,2 (Standardfehler 0,15), die Experten von 3,8 (Standardfehler 0,17).
Richtigkeit: ChatGPT erhielt eine durchschnittliche Bewertung von 4,5 (Standardfehler 0,13), die Experten von 4,1 (Standardfehler 0,15).
Potenzielle Schäden: ChatGPT erhielt eine durchschnittliche Bewertung von 1,2 (Standardfehler 0,08) für potenzielle Schäden, die Experten von 1,5 (Standardfehler 0,10).

Diese Daten zeigen, dass ChatGPT nicht nur in Bezug auf Empathie, Praktikabilität und Richtigkeit hervorragende Leistungen erbrachte, sondern auch in Bezug auf potenzielle Schäden besser abschnitt als die Experten.

Weitere Ergebnisse und Implikationen

Die Studie verdeutlicht das Potenzial von KI-Systemen wie ChatGPT im Gesundheitswesen. Die Fähigkeit von ChatGPT, empathische und praktische Antworten zu geben, könnte die Patientenversorgung verbessern. Die hohe Genauigkeit und die geringere potenzielle Schadenswirkung im Vergleich zu menschlichen Experten deuten auf eine mögliche Rolle von KI-Systemen als wertvolle Unterstützung im medizinischen Bereich hin. Es ist jedoch wichtig zu beachten, dass weitere Forschung erforderlich ist, um diese Ergebnisse zu bestätigen und die langfristigen Auswirkungen von KI in der Medizin zu verstehen.

Detailanalyse der Patientenbewertung

Die Patientenbewertung, die sowohl Empathie als auch Praktikabilität umfasst, zeigt, dass ChatGPT in beiden Kategorien höhere Durchschnittswerte erzielt als menschliche Experten. Diese Ergebnisse sind besonders bemerkenswert, da sie darauf hindeuten, dass KI in der Lage ist, Patientenbedürfnisse auf einer emotionalen Ebene zu erkennen und anzusprechen. Die Tatsache, dass Patienten die Antworten von ChatGPT als praktischer empfinden, deutet auch darauf hin, dass die KI in der Lage ist, klare, verständliche und umsetzbare Ratschläge zu geben.

Analyse der Ärztebewertung

Die Ärztebewertung, die die Empathie, Praktikabilität, Richtigkeit und potenziellen Schäden umfasst, zeigt, dass ChatGPT in allen Kategorien besser oder gleichwertig abschneidet wie menschliche Experten. Die höhere Bewertung der Richtigkeit der Antworten durch ChatGPT deutet darauf hin, dass die KI in der Lage ist, medizinisch korrekte Informationen zu liefern. Die geringere Bewertung potenzieller Schäden zeigt, dass die KI weniger wahrscheinlich Fehler macht, die zu schädlichen Folgen führen könnten.

Methodische Überlegungen

Die Studie verwendete ein sorgfältig durchdachtes methodisches Design, das die Verwendung von anonymisierten Daten, die Verteilung der Datensätze an verschiedene Bewertungsgruppen und die Sammlung demografischer Daten umfasst. Diese Maßnahmen tragen dazu bei, die Validität und Zuverlässigkeit der Ergebnisse zu erhöhen. Es ist jedoch anzumerken, dass die Studie auf einer begrenzten Anzahl von Fragen und Teilnehmern basiert, was die Möglichkeit eröffnet, dass weitere Forschung mit größerem Umfang zu anderen Ergebnissen führen könnte.

Die Rolle von KI in der Zukunft der Medizin

Die Ergebnisse dieser Studie zeigen, dass KI in der Medizin eine wichtige Rolle spielen könnte, insbesondere in Bereichen, in denen Empathie und praktische Ratschläge erforderlich sind. Die Fähigkeit von KI-Systemen, große Mengen an medizinischen Daten zu analysieren und zu verarbeiten, könnte zu einer besseren Diagnose und Behandlung von Krankheiten führen. Die Integration von KI in den medizinischen Workflow könnte auch dazu beitragen, die Belastung des medizinischen Personals zu verringern und die Effizienz des Gesundheitswesens zu verbessern.

Herausforderungen und Einschränkungen

Trotz der vielversprechenden Ergebnisse gibt es auch Herausforderungen und Einschränkungen bei der Integration von KI in die Medizin. Es ist wichtig, ethische Fragen im Zusammenhang mit der Verwendung von KI im Gesundheitswesen anzusprechen, insbesondere in Bezug auf Datenschutz, Transparenz und Verantwortlichkeit. Es ist auch wichtig, sicherzustellen, dass KI-Systeme so entwickelt und eingesetzt werden, dass sie die menschliche Interaktion nicht ersetzen, sondern ergänzen.