OpenAI Modelparameters Uitgelekt: Microsoft Document Onthult Grootte GPT4o

In de techwereld is de omvang van parameters van grote taalmodellen (LLM's) altijd een goed bewaard geheim gebleven. Echter, een recent medisch artikel, gepubliceerd in samenwerking met Microsoft en de Universiteit van Washington, heeft per ongeluk de parameterinformatie van verschillende OpenAI-modellen onthuld, wat tot wijdverspreide aandacht heeft geleid.

Parameters Onthuld

De belangrijkste informatie die in dit artikel is onthuld, omvat:

GPT-4: Ongeveer 1,76 biljoen parameters
GPT-4o: Ongeveer 200 miljard parameters
GPT-4o mini: Ongeveer 80 miljard parameters
o1-preview: Ongeveer 300 miljard parameters
o1-mini: Ongeveer 100 miljard parameters
Claude 3.5 Sonnet: Ongeveer 175 miljard parameters

Het is belangrijk op te merken dat de onderzoekers hebben verklaard dat deze parameters schattingen zijn.

GPT-4o Serie Parameters Zorgen voor Discussie

Het is verrassend dat de parameteromvang van de GPT-4o-serie veel lager is dan verwacht, vooral de mini-versie met slechts 80 miljard parameters. Sommige internetgebruikers speculeren dat GPT-4o mini mogelijk een Mixture of Experts (MoE) architectuur gebruikt, waarbij de daadwerkelijk geactiveerde parameters 80 miljard bedragen, terwijl de totale modelparameters 400 miljard kunnen zijn. Deze architectuur stelt kleinere modellen in staat om meer kennis op te doen, terwijl de operationele snelheid behouden blijft.

Claude 3.5 Sonnet Parameter Vergelijking

Daarnaast merken commentatoren op dat de parameteromvang van Claude 3.5 Sonnet vergelijkbaar is met GPT-3 davinci, wat vragen oproept over de relatie tussen de prestaties en de omvang van verschillende modellen.

MEDEC Benchmark: Een Nieuwe Standaard voor Medische Foutendetectie

Het artikel dat de parameters onthulde, ging eigenlijk over een evaluatiebenchmark genaamd MEDEC1, die is ontworpen om de prestaties van grote taalmodellen te beoordelen bij medische foutendetectie en -correctietaken. Deze benchmark richt zich op fouten in klinische notities, en omvat vijf aspecten: diagnose, management, behandeling, medicamenteuze behandeling en causale factoren.

Gegevensbronnen en Kenmerken

De MEDEC dataset bevat 488 klinische notities van drie Amerikaanse ziekenhuissystemen, met in totaal 3848 klinische teksten. Deze gegevens waren nog niet eerder door grote taalmodellen gebruikt, wat de echtheid en betrouwbaarheid van de evaluatie garandeert. De dataset wordt momenteel gebruikt in de MEDIQA-CORR gedeelde taak, waarbij de prestaties van 17 deelnemende systemen worden beoordeeld.

Testen en Resultaten

Het onderzoeksteam gebruikte de MEDEC-dataset om verschillende geavanceerde modellen te testen, waaronder o1-preview, GPT-4, Claude 3.5 Sonnet en Gemini 2.0 Flash. Daarnaast werden twee professionele artsen uitgenodigd om deel te nemen aan dezelfde foutendetectietaken, om een vergelijking tussen mens en machine te maken.

De resultaten tonen aan dat hoewel grote taalmodellen uitstekende prestaties leveren bij medische foutendetectie en -correctie, er nog steeds een kloof is in vergelijking met menselijke artsen. Dit geeft aan dat MEDEC een uitdagende evaluatiebenchmark is.

Kerninhoud van het Artikel: Toepassingen en Uitdagingen van LLM's in de Medische Sector

Het artikel wijst erop dat uit onderzoek van Amerikaanse medische instellingen blijkt dat een op de vijf patiënten die klinische notities lezen, fouten rapporteert. Van deze fouten wordt 40% als ernstig beschouwd, waarbij fouten met betrekking tot diagnoses het meest voorkomen.

Toepassingen en Risico's van LLM's in Medische Documenten

Nu steeds meer medische documentatietaken (zoals het genereren van klinische notities) door grote taalmodellen worden uitgevoerd, is het van cruciaal belang om de nauwkeurigheid en veiligheid van de informatie die door LLM's wordt gegenereerd te waarborgen. LLM's kunnen hallucinaties produceren en onjuiste of verzonnen inhoud genereren, wat ernstige gevolgen kan hebben voor klinische besluitvorming.

Betekenis van de MEDEC Benchmark

Om deze problemen aan te pakken en de veiligheid van LLM's bij het genereren van medische inhoud te waarborgen, zijn strikte validatiemethoden essentieel. De introductie van de MEDEC-benchmark is bedoeld om het vermogen van modellen te beoordelen om medische fouten in klinische teksten te detecteren en te corrigeren.

Samenstelling van de MEDEC Dataset

De MEDEC-dataset bevat 3848 klinische teksten uit verschillende medische disciplines, die door 8 medische annotators zijn gemarkeerd. De dataset omvat vijf soorten fouten:

Diagnose: De verstrekte diagnose is onnauwkeurig.
Management: De verstrekte volgende stappen in het management zijn onnauwkeurig.
Farmacotherapie: De aanbevolen medicamenteuze behandeling is onnauwkeurig.
Behandeling: Het aanbevolen behandelplan is onnauwkeurig.
Causaal organisme: Het geïdentificeerde pathogene organisme of pathogeen is onnauwkeurig.

De selectie van deze fouttypen is gebaseerd op de meest voorkomende vraagtypen in medische examens.

Methoden voor Data Creatie

De dataset is opgebouwd met behulp van twee methoden:

Methode #1 (MS): Gebruikmakend van medische examen vragen uit de MedQA-collectie, waarbij foutieve antwoorden door annotators met een medische achtergrond in de scenariotekst worden ingevoerd.
Methode #2 (UW): Gebruikmakend van een database met echte klinische notities van drie ziekenhuissystemen van de Universiteit van Washington, waarbij een team van medische studenten handmatig fouten in de notities introduceerde.

Beide methoden zijn onderworpen aan strikte kwaliteitscontrole om de nauwkeurigheid en betrouwbaarheid van de gegevens te waarborgen.

Methoden voor Medische Foutendetectie en -correctie

Om de prestaties van modellen bij medische foutendetectie en -correctietaken te evalueren, hebben de onderzoekers het proces in drie sub-taken verdeeld:

Sub-taak A: Voorspel de foutmarkering (0: geen fout; 1: fout aanwezig).
Sub-taak B: Extraheer de zin die de fout bevat.
Sub-taak C: Genereer een correctie voor de zin die de fout bevat.

Het onderzoeksteam heeft oplossingen gebaseerd op LLM's ontwikkeld en twee verschillende prompts gebruikt om de gewenste uitvoer te genereren.

Experimenten en Resultaten

Taalmodellen

De onderzoekers voerden experimenten uit met verschillende taalmodellen, waaronder Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini en o1-preview.

Analyse van Experimentele Resultaten

De experimentele resultaten tonen aan dat Claude 3.5 Sonnet uitstekende prestaties levert op het gebied van foutmarkeringdetectie en foutzin detectie. o1-preview presteert het beste bij foutcorrectie. Alle modellen zijn echter nog steeds minder goed in medische foutendetectie en -correctie dan menselijke artsen.

De resultaten laten ook zien dat modellen problemen hebben met nauwkeurigheid en in veel gevallen het bestaan van fouten overvoorspellen (d.w.z. hallucinaties produceren). Bovendien is er een verschil in rangorde tussen de classificatieprestaties en de generatieprestaties van foutcorrectie.

Analyse van Fouttypen

Op het gebied van detectie en correctie van verschillende fouttypen heeft o1-preview een hogere recall bij foutmarkering en zin detectie, maar artsen presteren beter op het gebied van precisie.

Vervolgonderzoeksrichtingen

De onderzoekers geven aan dat vervolgonderzoek zich zal richten op het introduceren van meer voorbeelden in de prompts en het optimaliseren hiervan, om de prestaties van modellen bij medische foutendetectie en -correctie verder te verbeteren.