Published on

Rivelati i Parametri dei Modelli OpenAI: Un Documento Microsoft Svela le Dimensioni di GPT4o

Autori
  • avatar
    Nome
    Ajax
    Twitter

Parametri dei Modelli OpenAI: Una Rivelazione Inaspettata

Nel mondo della tecnologia, le dimensioni dei parametri dei modelli linguistici di grandi dimensioni (LLM) sono sempre state un segreto ben custodito. Tuttavia, un recente documento di ricerca nel campo medico, frutto della collaborazione tra Microsoft e l'Università di Washington, ha inaspettatamente rivelato i parametri di diversi modelli OpenAI, suscitando un grande interesse. Questo documento ha fornito informazioni cruciali, tra cui:

  • GPT-4: Circa 1.76 trilioni di parametri
  • GPT-4o: Circa 200 miliardi di parametri
  • GPT-4o mini: Circa 80 miliardi di parametri
  • o1-preview: Circa 300 miliardi di parametri
  • o1-mini: Circa 100 miliardi di parametri
  • Claude 3.5 Sonnet: Circa 175 miliardi di parametri

È importante sottolineare che i ricercatori hanno dichiarato che questi parametri sono stime.

GPT-4o e le Speculazioni sui Parametri

La rivelazione dei parametri della serie GPT-4o ha suscitato un grande dibattito, soprattutto per il fatto che la versione mini ha solo 80 miliardi di parametri. Ciò ha portato a speculazioni secondo cui GPT-4o mini potrebbe utilizzare un'architettura di tipo Mixture of Experts (MoE), in cui solo 80 miliardi di parametri sono attivi, mentre il modello potrebbe avere un totale di 400 miliardi di parametri. Questa architettura permetterebbe a modelli più piccoli di apprendere di più, mantenendo al contempo una velocità di esecuzione elevata.

Confronto con Claude 3.5 Sonnet

Un altro aspetto interessante è il confronto con Claude 3.5 Sonnet, che ha un numero di parametri simile a GPT-3 Davinci. Ciò ha sollevato interrogativi sulla relazione tra le prestazioni e le dimensioni dei modelli.

MEDEC: Un Nuovo Benchmark per la Rilevazione di Errori Medici

Il documento che ha rivelato i parametri dei modelli OpenAI è in realtà incentrato su un benchmark chiamato MEDEC1. Questo benchmark è progettato per valutare le prestazioni dei modelli linguistici di grandi dimensioni nella rilevazione e correzione di errori medici, in particolare in note cliniche. MEDEC si concentra su errori relativi a diagnosi, gestione, terapia, farmacoterapia e agenti causali.

Origine e Caratteristiche del Dataset MEDEC

Il dataset MEDEC è composto da 488 note cliniche, per un totale di 3848 testi clinici, provenienti da tre sistemi ospedalieri statunitensi. Questi dati non erano stati esposti precedentemente a nessun LLM, garantendo l'affidabilità e la validità della valutazione. Attualmente, il dataset viene utilizzato nel task di condivisione MEDIQA-CORR per valutare le prestazioni di 17 sistemi partecipanti.

Test e Risultati: Il Confronto Tra Umani e AI

Il team di ricerca ha testato diversi modelli avanzati utilizzando il dataset MEDEC, tra cui o1-preview, GPT-4, Claude 3.5 Sonnet e Gemini 2.0 Flash. Inoltre, due medici esperti sono stati coinvolti nello stesso compito di rilevazione di errori, per consentire un confronto tra prestazioni umane e quelle dell'intelligenza artificiale.

I risultati hanno mostrato che, nonostante i modelli linguistici di grandi dimensioni si siano dimostrati abili nella rilevazione e correzione di errori medici, le loro prestazioni sono ancora inferiori a quelle dei medici umani. Questo dimostra che MEDEC è un benchmark di valutazione molto impegnativo.

Il Ruolo e le Sfide degli LLM nel Settore Medico

Il documento evidenzia che negli Stati Uniti, un paziente su cinque che legge le note cliniche segnala di aver trovato errori. Di questi errori, il 40% è considerato grave, e gli errori più comuni sono quelli relativi alla diagnosi.

Con l'aumento dell'utilizzo di modelli linguistici di grandi dimensioni per compiti medici come la generazione di note cliniche, diventa fondamentale garantire l'accuratezza e la sicurezza delle informazioni generate dagli LLM. Questi modelli possono produrre "allucinazioni", ovvero generare informazioni errate o fittizie, che potrebbero avere gravi conseguenze sulle decisioni cliniche.

L'Importanza del Benchmark MEDEC

Per affrontare queste problematiche e garantire la sicurezza dell'utilizzo degli LLM nella generazione di contenuti medici, è essenziale adottare metodi di validazione rigorosi. L'introduzione del benchmark MEDEC mira a valutare la capacità dei modelli di rilevare e correggere errori medici in testi clinici.

La Costruzione del Dataset MEDEC

Il dataset MEDEC contiene 3848 testi clinici provenienti da diversi ambiti medici, annotati da otto medici esperti. Il dataset copre cinque tipi di errori:

  • Diagnosi: Diagnosi errate.
  • Gestione: Indicazioni errate per le prossime azioni di gestione.
  • Farmacoterapia: Raccomandazioni di farmacoterapia errate.
  • Terapia: Raccomandazioni di piani terapeutici errati.
  • Agente Causale: Identificazione errata di agenti causali o patogeni.

Questi tipi di errori sono stati selezionati in base ai problemi più comuni riscontrati negli esami di abilitazione medica.

Metodi di Creazione dei Dati

Il dataset è stato creato utilizzando due metodi:

  1. Metodo #1 (MS): Utilizzando domande di esami di abilitazione medica dalla collezione MedQA, gli annotatori con background medico hanno inserito risposte errate in testi di scenario.
  2. Metodo #2 (UW): Utilizzando un database di note cliniche reali provenienti da tre ospedali dell'Università di Washington, un team di studenti di medicina ha introdotto manualmente errori nelle note.

Entrambi i metodi sono stati sottoposti a rigorosi controlli di qualità per garantire l'accuratezza e l'affidabilità dei dati.

Metodologie per la Rilevazione e Correzione di Errori Medici

Per valutare le prestazioni dei modelli nella rilevazione e correzione di errori medici, il processo è stato suddiviso in tre sotto-task:

  • Sotto-task A: Previsione del flag di errore (0: nessun errore; 1: errore presente).
  • Sotto-task B: Estrazione della frase contenente l'errore.
  • Sotto-task C: Generazione di una correzione per la frase contenente l'errore.

Il team di ricerca ha sviluppato soluzioni basate su LLM, utilizzando due diversi prompt per generare gli output necessari.

Esperimenti e Risultati: Analisi delle Prestazioni dei Modelli

Sono stati condotti esperimenti su diversi modelli linguistici, tra cui Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini e o1-preview. I risultati hanno mostrato che Claude 3.5 Sonnet si è distinto nella rilevazione del flag di errore e nella rilevazione delle frasi contenenti errori. O1-preview ha ottenuto le migliori prestazioni nella correzione degli errori. Tuttavia, tutti i modelli si sono dimostrati inferiori ai medici umani nella rilevazione e correzione di errori medici.

I risultati hanno anche indicato che i modelli hanno problemi di precisione e che, in molti casi, hanno sovrastimato la presenza di errori (ovvero, hanno prodotto allucinazioni). Inoltre, è stata osservata una discrepanza nelle prestazioni tra classificazione e correzione degli errori.

Analisi dei Tipi di Errore

Nell'analisi della rilevazione e correzione di diversi tipi di errore, o1-preview ha dimostrato un recall elevato nella rilevazione del flag e della frase, mentre i medici hanno ottenuto una maggiore accuratezza.

Direzioni Future della Ricerca

I ricercatori hanno indicato che la prossima direzione della ricerca include l'introduzione di più esempi nei prompt e l'ottimizzazione dei prompt stessi, al fine di migliorare ulteriormente le prestazioni dei modelli nella rilevazione e correzione di errori medici.