Published on

OpenAI Modellparameter durchgesickert: Microsoft-Papier enthüllt GPT4o-Größe

Autoren
  • avatar
    Name
    Ajax
    Twitter

In der Welt der Technologie ist die Parametergröße großer Sprachmodelle (LLMs) ein streng gehütetes Geheimnis. Kürzlich hat jedoch ein medizinisches Papier, das in Zusammenarbeit von Microsoft und der University of Washington veröffentlicht wurde, versehentlich Informationen über die Parameter verschiedener OpenAI-Modelle preisgegeben, was große Aufmerksamkeit erregte.

Parameter-Enthüllung

Das Papier enthüllte die folgenden geschätzten Parametergrößen:

  • GPT-4: Ungefähr 1,76 Billionen Parameter
  • GPT-4o: Ungefähr 200 Milliarden Parameter
  • GPT-4o mini: Ungefähr 8 Milliarden Parameter
  • o1-preview: Ungefähr 300 Milliarden Parameter
  • o1-mini: Ungefähr 100 Milliarden Parameter
  • Claude 3.5 Sonnet: Ungefähr 175 Milliarden Parameter

Es ist wichtig zu betonen, dass diese Zahlen von den Forschern als Schätzungen deklariert wurden.

GPT-4o-Serie: Diskussionen über die Parameter

Die Parameterzahlen der GPT-4o-Serie, insbesondere die Mini-Version mit nur 8 Milliarden Parametern, waren überraschend niedrig. Es wird spekuliert, dass GPT-4o mini eine Mixture-of-Experts (MoE)-Architektur verwendet, bei der zwar nur 8 Milliarden Parameter aktiv sind, das Gesamtmodell aber bis zu 400 Milliarden Parameter umfassen könnte. Diese Architektur ermöglicht es kleineren Modellen, mehr Wissen zu erlernen und gleichzeitig schnell zu arbeiten.

Vergleich der Parameter von Claude 3.5 Sonnet

Kommentare wiesen darauf hin, dass die Parametergröße von Claude 3.5 Sonnet mit der von GPT-3 davinci vergleichbar ist. Dies wirft Fragen über die Beziehung zwischen der Leistung und der Größe verschiedener Modelle auf.

MEDEC-Benchmark: Ein neuer Standard für die Fehlererkennung im Gesundheitswesen

Das Papier, in dem die Parameter enthüllt wurden, befasst sich eigentlich mit einem Benchmark namens MEDEC1, der die Leistung großer Sprachmodelle bei der Erkennung und Korrektur medizinischer Fehler bewertet. MEDEC konzentriert sich auf Fehler in klinischen Notizen und deckt fünf Bereiche ab: Diagnose, Management, Behandlung, Pharmakotherapie und Krankheitserreger.

Datenquellen und -eigenschaften

Der MEDEC-Datensatz umfasst 488 klinische Notizen aus drei US-amerikanischen Krankenhaussystemen, insgesamt 3848 klinische Texte. Diese Daten waren zuvor keinem großen Sprachmodell bekannt, was die Authentizität und Zuverlässigkeit der Bewertung gewährleistet. Der Datensatz wird derzeit für die MEDIQA-CORR-Sharing-Aufgabe verwendet, um die Leistung von 17 teilnehmenden Systemen zu bewerten.

Tests und Ergebnisse

Das Forschungsteam testete verschiedene fortschrittliche Modelle, darunter o1-preview, GPT-4, Claude 3.5 Sonnet und Gemini 2.0 Flash, mit dem MEDEC-Datensatz. Zusätzlich wurden zwei Fachärzte gebeten, die gleichen Fehlererkennungsaufgaben zu übernehmen, um einen Vergleich zwischen Mensch und Maschine zu ermöglichen. Die Ergebnisse zeigten, dass große Sprachmodelle zwar bei der Erkennung und Korrektur medizinischer Fehler gut abschnitten, aber immer noch hinter menschlichen Ärzten zurückblieben. Dies zeigt, dass MEDEC ein anspruchsvoller Benchmark ist.

Kern des Papiers: Anwendungen und Herausforderungen von LLMs im Gesundheitswesen

Das Papier wies darauf hin, dass Studien in US-amerikanischen Gesundheitseinrichtungen ergeben haben, dass einer von fünf Patienten, die klinische Notizen lesen, Fehler meldet. 40 % dieser Fehler wurden als schwerwiegend eingestuft, wobei die häufigsten Fehler im Zusammenhang mit der Diagnose auftraten.

Anwendungen und Risiken von LLMs in medizinischen Dokumenten

Da immer mehr medizinische Dokumentenaufgaben, wie z. B. die Erstellung klinischer Notizen, von großen Sprachmodellen übernommen werden, ist es von entscheidender Bedeutung, die Genauigkeit und Sicherheit der von LLMs ausgegebenen Informationen zu gewährleisten. LLMs können Halluzinationen erzeugen und falsche oder erfundene Inhalte ausgeben, was schwerwiegende Auswirkungen auf klinische Entscheidungen haben kann.

Bedeutung des MEDEC-Benchmarks

Um diese Probleme anzugehen und die Sicherheit von LLMs bei der Erstellung medizinischer Inhalte zu gewährleisten, sind strenge Validierungsmethoden unerlässlich. Die Einführung des MEDEC-Benchmarks zielt darauf ab, die Fähigkeit von Modellen zu bewerten, medizinische Fehler in klinischen Texten zu erkennen und zu korrigieren.

Erstellung des MEDEC-Datensatzes

Der MEDEC-Datensatz enthält 3848 klinische Texte aus verschiedenen medizinischen Bereichen, die von 8 medizinischen Annotatoren annotiert wurden. Der Datensatz deckt fünf Arten von Fehlern ab:

  • Diagnose: Die gestellte Diagnose ist nicht korrekt.
  • Management: Die vorgeschlagenen nächsten Schritte im Management sind nicht korrekt.
  • Pharmakotherapie: Die empfohlene medikamentöse Behandlung ist nicht korrekt.
  • Behandlung: Der empfohlene Behandlungsplan ist nicht korrekt.
  • Kausaler Organismus: Der angegebene Krankheitserreger oder das pathogene Agens ist nicht korrekt.

Die Auswahl dieser Fehlerarten basiert auf den häufigsten Fragetypen in medizinischen Prüfungsausschüssen.

Methoden zur Datenerstellung

Der Datensatz wurde mit zwei Methoden erstellt:

  1. Methode #1 (MS): Verwendung von medizinischen Prüfungsfragen aus der MedQA-Sammlung, bei denen medizinische Annotatoren falsche Antworten in Szenariotexte einfügten.
  2. Methode #2 (UW): Verwendung einer Datenbank mit echten klinischen Notizen aus drei Krankenhaussystemen der University of Washington, in die Medizinstudenten manuell Fehler einfügten.

Beide Methoden wurden einer strengen Qualitätskontrolle unterzogen, um die Genauigkeit und Zuverlässigkeit der Daten zu gewährleisten.

Methoden zur Erkennung und Korrektur medizinischer Fehler

Um die Leistung von Modellen bei der Erkennung und Korrektur medizinischer Fehler zu bewerten, teilten die Forscher den Prozess in drei Teilaufgaben auf:

  • Teilaufgabe A: Vorhersage des Fehlermarkers (0: kein Fehler; 1: Fehler).
  • Teilaufgabe B: Extraktion des Satzes, der den Fehler enthält.
  • Teilaufgabe C: Generierung einer Korrektur für den fehlerhaften Satz.

Das Forschungsteam entwickelte auf LLMs basierende Lösungen und verwendete zwei verschiedene Prompts, um die gewünschten Ausgaben zu generieren.

Experimente und Ergebnisse

Sprachmodelle

Die Forscher führten Experimente mit einer Vielzahl von Sprachmodellen durch, darunter Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini und o1-preview.

Analyse der experimentellen Ergebnisse

Die Ergebnisse zeigten, dass Claude 3.5 Sonnet bei der Fehlererkennung und der Satzextraktion hervorragende Leistungen erbrachte. o1-preview schnitt bei der Fehlerkorrektur am besten ab. Allerdings blieben alle Modelle bei der Erkennung und Korrektur medizinischer Fehler hinter menschlichen Ärzten zurück. Die Ergebnisse zeigten auch, dass die Modelle Probleme mit der Genauigkeit haben und in vielen Fällen die Existenz von Fehlern überbewerteten (d. h. Halluzinationen erzeugten). Darüber hinaus gab es Unterschiede in der Rangfolge zwischen der Klassifizierungsleistung und der Fehlerkorrekturleistung.

Fehlerartenanalyse

Bei der Erkennung und Korrektur verschiedener Fehlertypen erzielte o1-preview eine höhere Rückrufrate bei der Fehlererkennung und der Satzextraktion, während Ärzte bei der Genauigkeit besser abschnitten.

Zukünftige Forschungsrichtungen

Die Forscher gaben an, dass die nächsten Forschungsschritte die Einführung weiterer Beispiele und die Optimierung der Prompts umfassen, um die Leistung der Modelle bei der Erkennung und Korrektur medizinischer Fehler weiter zu verbessern.