Published on

Modello O3 di OpenAI: Un Salto nel Ragionamento e Svolta nell'ARC AGI

Autori
  • avatar
    Nome
    Ajax
    Twitter

Il Modello O3 di OpenAI: Un Balzo nel Ragionamento e la Svolta ARC AGI

Il modello O3 di OpenAI rappresenta un significativo passo avanti nel campo dell'intelligenza artificiale. Questo modello, presentato come un'evoluzione del precedente o1, ha dimostrato prestazioni eccezionali in una serie di compiti, in particolare nel superamento del premio ARC AGI. La sua presentazione, avvenuta durante l'evento di 12 giorni di OpenAI, ha suscitato grande interesse nella comunità scientifica e tecnologica, evidenziando la rapida progressione dell'IA.

Punti Salienti del Modello O3

  • Consenso Multiplo: Il consenso generato da molteplici iterazioni è fondamentale per le prestazioni ottimali del modello o1. Questo principio si applica a tutte le fasi di ragionamento, sottolineando l'importanza di non affidarsi a un singolo flusso di output.
  • Nessuna Ricerca ad Albero: Non ci sono prove che il modello o3 abbia modificato la sua architettura di inferenza attraverso l'aggiunta di una ricerca ad albero. L'incremento di performance si ottiene campionando più contenuti dallo stesso flusso di generazione.
  • Ritorno dell'Apprendimento per Rinforzo (RL): Il 2024 è stato l'anno in cui l'apprendimento per rinforzo e le metodologie correlate si sono riaffermate come elementi centrali dell'intelligenza artificiale.
  • Anteprima del Modello O3: OpenAI ha annunciato l'anteprima del modello o3, un'ulteriore evoluzione dei modelli linguistici per l'inferenza utilizzando o1. I modelli inizieranno con o3-mini e saranno disponibili al pubblico entro la fine di gennaio 2025.
  • Un Anno di Consolidamento: Il 2024 è stato un anno di consolidamento per l'IA, con molti attori che hanno raggiunto livelli di performance paragonabili a GPT-4, esplorando le applicazioni pratiche di questi modelli.
  • Svolta Inaspettata: L'introduzione di o3 ha cambiato le carte in tavola, rivelandosi più inaspettata di o1 e segnando un rapido progresso nei modelli di ragionamento.
  • Applicabilità Estesa: Nonostante alcuni dubbi iniziali, i modelli di tipo o1 saranno presto ampiamente utilizzati nell'ecosistema della ricerca sull'IA, accelerando significativamente i progressi.
  • Nuova Frontiera: Il modello o3 indica che l'industria sta scalando una nuova vetta, poiché i benefici della pre-formazione basata esclusivamente su testi internet stanno diminuendo.

Importanti Progressi di O3

Il modello o3 ha realizzato importanti progressi nelle valutazioni di ragionamento, come dimostrato dai seguenti risultati:

  • Premio ARC AGI: Primo modello a superare l'85% di completamento nel premio ARC AGI (su un set di dati pubblici e non sul set di test, superando i limiti di costo).
  • Benchmark Frontier Math: Balzo di performance dal 2% al 25% nel nuovo benchmark Frontier Math.
  • Benchmark di Programmazione: Miglioramenti significativi in tutti i principali benchmark di programmazione, come SWE-Bench-Verified.

Questi cambiamenti, avvenuti a soli tre mesi dall'annuncio della prima versione del modello, accelereranno i progressi della ricerca sull'IA. La riduzione dei costi di inferenza modificherà il ruolo di molti ingegneri del software.

O3: Un Approfondimento

Il modello o3 è stato annunciato nell'ultimo giorno dell'evento "12 giorni di lanci di OpenAI". Il lancio è stato accompagnato da risultati sorprendenti, con il modello che ha superato altri modelli all'avanguardia come Gemini 1.5 Pro e Claude 3.5 Sonnet New in diverse aree.

Un dettaglio spesso trascurato nei blog e nelle discussioni sui modelli o1 è il significato delle aree ombreggiate nei grafici a barre. Nel primo blog post su o1, la didascalia del primo grafico dei risultati menzionava che le barre solide rappresentavano l'accuratezza pass@1, mentre le aree ombreggiate rappresentavano le prestazioni utilizzando il voto di maggioranza (consenso) su 64 campioni.

Questo dettaglio indica che il consenso di molteplici generazioni è fondamentale per le migliori prestazioni del modello o1. Questo si applica a tutti gli stadi di calcolo dell'inferenza: per ottenere i risultati migliori, non si può dipendere da un singolo flusso di output. Tuttavia, questo non significa che si debba utilizzare una ricerca ad albero o una qualche rappresentazione intermedia. Le modalità professionali di o1 e i risultati del premio ARC si basano su questa generazione parallela per ottenere i punteggi più alti.

Frontier Math e le Sfide del Ragionamento Matematico

Le valutazioni qualitative del benchmark Frontier Math provengono da due vincitori della medaglia Fields, le cui osservazioni si concentrano sulle parti più difficili del benchmark, ma che riflettono bene il suo scopo qualitativo:

  • "Questi problemi sono estremamente impegnativi... Credo che terranno l'IA impegnata per almeno i prossimi anni." - Terence Tao, vincitore della medaglia Fields nel 2006.
  • "Nessuno dei problemi che vedo è nel mio campo di ricerca, e sembrano completamente al di fuori della mia portata... Sembrano un livello più difficili dei problemi dell'IMO (Olimpiadi Internazionali della Matematica)." - Timothy Gowers, vincitore della medaglia Fields nel 2006.

Questo benchmark, introdotto il 7 novembre, era considerato una delle poche frontiere aperte per le capacità dell'IA. Il lancio del modello o3 ha posizionato OpenAI come l'unico modello a raggiungere un punteggio a due cifre, con un salto diretto al 25%.

Programmazione e la Competizione dell'IA

Il secondo risultato di rilievo è emerso nell'area della programmazione. Durante la diretta streaming, OpenAI ha mostrato un punteggio del 71,7% su SWE-Bench Verified (un risultato che è in parte all'avanguardia), oltre a risultati estesi su Codeforces (un sito di competizioni di programmazione).

Il modello o3, con un valore N non divulgato attraverso il voto di consenso, ha ottenuto un punteggio di 2727, raggiungendo il livello di Gran Maestro Internazionale, che lo collocherebbe tra i primi 200 programmatori competitivi al mondo. Il modello o3-mini ha superato le prestazioni di o1, riducendo significativamente i costi. Questo, dato l'andamento del 2024, potrebbe diventare un modello più influente per un pubblico più ampio. Questo ha reso possibile l'ultima svolta di o3 nella diretta streaming: la risoluzione effettiva della sfida ARC AGI.

La Sfida ARC AGI e la Valutazione dell'Intelligenza

L'Abstract Reasoning Corpus (ARC) è un metodo di valutazione dell'intelligenza artificiale proposto da François Chollet nel suo articolo del 2019 "On the Measure of Intelligence". L'obiettivo della valutazione ARC è quello di avvicinarsi alla valutazione dell'intelligenza umana:

  • L'ARC è basato su una nuova definizione di intelligenza basata sulla teoria dell'informazione algoritmica, descrivendo l'intelligenza come efficienza nell'acquisizione di competenze e enfatizzando i concetti di portata, difficoltà di generalizzazione, conoscenza a priori ed esperienza.
  • Sulla base di questa definizione, è stata sviluppata una serie di linee guida per la progettazione di un benchmark di intelligenza artificiale generale.
  • L'ARC è costruito sulla base di una serie di conoscenze a priori esplicite, il più vicino possibile alle conoscenze a priori innate dell'uomo.
  • L'ARC serve per misurare un'intelligenza fluida generale simile a quella umana e per consentire confronti equi tra sistemi di intelligenza artificiale e umani.

Il premio ARC AGI è stato lanciato nel giugno 2024, con un premio di 1 milione di dollari per la prima soluzione che soddisfi determinati criteri e risolva una serie di compiti ARC privati. La soglia per essere considerati "risolti" era un'accuratezza dell'85%. OpenAI e ARC Prize hanno condiviso i seguenti risultati:

  • Progressi Significativi: Prima dei modelli di tipo o1, il miglior modello di OpenAI, GPT-4o, aveva raggiunto solo il 5% di accuratezza.

  • Evoluzione Rapida: I rapidi progressi di OpenAI nei nuovi modelli di ragionamento sono riassunti da Mike Knoop, co-fondatore del premio ARC:

    • GPT-2 (2019): 0%
    • GPT-3 (2020): 0%
    • GPT-4 (2023): 2%
    • GPT-4o (2024): 5%
    • o1-preview (2024): 21%
    • o1 high (2024): 32%
    • o1 Pro (2024): circa 50%
    • o3 tuned low (2024): 76%
    • o3 tuned high (2024): 87%

A giugno di quest'anno, si pensava che la risoluzione di ARC-AGI sarebbe stata estremamente difficile. Tuttavia, pochi mesi dopo, questa convinzione è stata completamente ribaltata. Anche coloro che erano ottimisti su Q* e altri metodi di ragionamento non si aspettavano un successo di questa portata.

Dettagli dai Test di O3

Chollet ha condiviso ulteriori dettagli sul sito web del premio ARC:

  • Il modello o3 è stato testato su due set di dati ARC-AGI:
    • Valutazione semi-privata: 100 compiti privati per valutare l'overfitting.
    • Valutazione pubblica: 400 compiti pubblici.
  • I test sono stati condotti con due livelli di calcolo, con una dimensione del campione variabile: 6 (modalità efficiente) e 1024 (modalità inefficiente, 172 volte più calcolo).

I risultati dei test sono stati i seguenti:

  • Modalità efficiente: 76% di accuratezza.
  • Modalità inefficiente: 87% di accuratezza.

I dati specifici sui costi di calcolo elevati di o3 non sono stati ancora resi pubblici, poiché i prezzi e la disponibilità delle funzioni sono ancora da definire. La quantità di calcolo è circa 172 volte quella della configurazione a basso calcolo.

Molti dei problemi sono molto intuitivi per gli esseri umani. Per inserire questi problemi nel modello, i colori sono codificati come numeri e inseriti come contesto in forma di griglia, come evidenziato da Greg Kamradt.

Tecnicamente, il premio non è ancora stato vinto, poiché il costo della soluzione ha superato la soglia e non è open source. La competizione è ancora in corso. Entro pochi anni, questo tipo di intelligenza diventerà quasi gratuita. Gratuita nel senso che il costo di esecuzione dell'inferenza sarà inferiore al valore monetario dei dati pubblicitari dell'utente.

Architettura, Costi e Metodi di Addestramento di O3

Il team ARC AGI ha collaborato direttamente con OpenAI per ottenere stime dei prezzi dei modelli. Il prezzo finale di o3 una volta che sarà formalmente disponibile nell'API potrebbe essere diverso. Il team ARC-AGI ha aggiunto un requisito aggiuntivo per la presentazione di soluzioni per la valutazione privata, basato sull'importanza della legge di ridimensionamento dell'inferenza. Nel loro blog post, il team ha registrato il costo totale e il costo per compito come proxy per i FLOP o un calcolo diretto dell'uso delle risorse di calcolo.

Questo è coerente con una regola dell'annuncio del premio ARC per la classifica pubblica (che non è correlata al premio di 1 milione di dollari):

  • 10.000 dollari è il limite di costo di esecuzione che si può spendere per risolvere 500 compiti (inclusi 400 compiti nel set di valutazione pubblica e 100 nel nuovo set di valutazione semi-privata), compreso il costo di chiamata delle API commerciali.

Il costo di o3 supera di gran lunga questo limite per 500 compiti nel set di valutazione pubblica o semi-pubblica. Il premio ARC ha rivelato che il costo per query di o3 è di gran lunga superiore a 1.000 dollari. Hanno anche fatto delle ipotesi sulla natura del modello. La seguente sezione ha lo scopo di placare le speculazioni sul fatto che o3 utilizzi una tecnica di addestramento diversa da o1. In particolare, Chollet ha chiarito che si trattava di speculazioni:

  • Al momento, possiamo solo speculare su come funziona o3. Tuttavia, il meccanismo principale di o3 sembra essere la ricerca e l'esecuzione di programmi in linguaggio naturale nello spazio dei token. Durante i test, il modello cerca nello spazio delle possibili catene di pensiero (CoT), che descrivono i passaggi necessari per risolvere il compito, in un modo che potrebbe essere simile alla ricerca ad albero Monte Carlo in stile AlphaZero. Nel caso di o3, la ricerca potrebbe essere guidata da un qualche tipo di modello di valutazione.

Ancora una volta, i riferimenti e le ipotesi sul MCTS (ricerca ad albero Monte Carlo) sono fuorvianti, ma comprensibili, dato che molte persone intelligenti sono rimaste colpite dalla capacità di o1 e o3 di raggiungere queste capacità con un singolo passaggio in avanti attraverso un modello linguistico.

Un articolo recente ha spiegato come questo sia possibile attraverso un addestramento di apprendimento per rinforzo su larga scala e ha illustrato perché alcuni grafici di OpenAI siano fuorvianti per quanto riguarda i costi di calcolo nella fase di inferenza. Anche i dipendenti di OpenAI hanno sottolineato la natura di o3 come "solo un modello addestrato tramite apprendimento per rinforzo".

Tuttavia, sulla base dei costi registrati dal team ARC, combinati con il prezzo di OpenAI per o1 (60,00 dollari al milione di token di output), l'analisi mostra che il costo per query del modello o3 completo è di circa 5.000 dollari. Dividendo il costo totale per il prezzo per token, si ottiene che il modello genera 80 milioni di token per risposta, il che non sarebbe possibile senza un enorme miglioramento dei modelli a contesto lungo. Da qui le speculazioni su diverse architetture di ricerca.

Il punto cruciale è un dettaglio del blog post del premio ARC, che menziona:

  • Sotto la guida di OpenAI, i test sono stati condotti a due livelli di calcolo, con dimensioni del campione variabili: 6 (modalità efficiente) e 1024 (modalità inefficiente, 172 volte più calcolo).

Secondo SemiAnalysis, o1 pro utilizza un metodo di auto-consistenza o un semplice controllo consensus@N, scegliendo la risposta più comune tra le molteplici risposte parallele alla stessa query per migliorare le prestazioni. In questo caso, la dimensione del campione N potrebbe corrispondere al valore di consensus@N, il che suggerisce che la configurazione di valutazione di o3 è vicina alla configurazione di o1 pro disponibile per i clienti, ovvero 6x calcolo, e una configurazione super alta di 1024x calcolo per problema.

Questa scala di inferenza non sarà disponibile per gli utenti paganti comuni per molto tempo. La maggior parte degli utenti avrà accesso solo a una singola generazione a un risultato consensus@10, a seconda delle specifiche della versione "professionale" del modello o1.

Ipotizzando che il prezzo per milione di token di output sia ancora di 60 dollari, dividendolo per 1024 flussi, il modello genera circa 78.000 token per risposta. In realtà, sembra che o3 benefici anche di un modello di base più grande, poiché i costi di calcolo di o1 sono aumentati significativamente su tutti gli assi di calcolo logaritmici x mostrati da OpenAI durante la diretta streaming. Con un modello di base più grande, queste cifre sono perfettamente ragionevoli e non implicano l'aggiunta di elementi di "ricerca" aggiuntivi.

La storia principale che ha guidato i progressi del deep learning negli ultimi anni è stata quella di trovare un dominio ricco di potenziale e di scalarlo. La prima ondata di progressi è arrivata dalla pre-formazione su scala internet. Ora, OpenAI ha trovato una nuova direzione da scalare attraverso l'estensione dell'addestramento dell'apprendimento per rinforzo e dell'inferenza a contesto lungo. Dato che o3 è stato rilasciato da OpenAI solo circa tre mesi dopo o1, la spiegazione più semplice è che utilizzi la stessa architettura e gli stessi metodi di addestramento, solo su scala maggiore.

Non ci sono prove che o3 abbia modificato l'architettura di inferenza aggiungendo una ricerca ad albero, tutte le affermazioni sono solo voci. La regola fondamentale della legge di ridimensionamento dell'inferenza è che il campionamento di più contenuti dalla stessa generazione a flusso singolo può portare a un miglioramento delle prestazioni.

La domanda cruciale è se il modello di base di o3 sia Orion (nome in codice interno di OpenAI, potenzialmente GPT-5), o se il nuovo modello di base benefici di Orion solo durante l'addestramento. Se il modello di base è stato aumentato di 2-5 volte, allora i dati sono perfettamente in linea con i prezzi delle API riportati dal premio ARC.

I dettagli specifici di o3 sono ancora incerti. Il grafico del team ARC mostra che il modello o3 è etichettato come "(tuned)", ma non ci sono ancora dettagli su o3. Tuttavia, quando ci concentriamo sulla tendenza dei progressi, è chiaro che i modelli di livello o1 saranno presenti a lungo termine.

Infine, per rimanere umili, ecco un esempio di premio ARC che o3 non è riuscito a risolvere. È molto semplice.

Abbiamo chiaramente ancora molta strada da fare, ma dovreste essere entusiasti e aspettarvi che la realtà di un uso diffuso di questi modelli arrivi prima di quanto la maggior parte delle persone si aspetti. Presumere che l'IA continuerà a progredire è l'opzione più sicura.

2024: Il Ritorno dell'Apprendimento per Rinforzo (RL)

All'inizio della giornata, Anthropic ha rilasciato un video sulla creazione di Anthropic, con la partecipazione di diversi co-fondatori. Un dettaglio inaspettato è stato condiviso dal co-fondatore e CEO Dario Amodei:

  • "...La ragione per cui abbiamo scalato questi modelli è che la loro intelligenza non era ancora sufficiente per consentirci di fare RLHF (apprendimento per rinforzo con feedback umano) su di essi."

In qualità di uno dei fondatori del concetto moderno di RLHF, Dario probabilmente aveva già intuito che tutti i progressi delle tecniche di fine-tuning erano imminenti. Questa visione del potenziale di RLHF è più ampia e profonda di quanto la maggior parte dei professionisti riconosca.

Quest'anno, l'apprendimento per rinforzo (RL) e le metodologie correlate si sono indubbiamente riaffermate come elementi centrali dell'intelligenza artificiale.

Il processo di scrittura di questo articolo mi ha convinto ad addestrare un modello linguistico simile basato sul ragionamento nel 2025. La sensazione è simile a come la pre-formazione standard sia diventata un requisito di base per le aziende tecnologiche nel 2024. È prevedibile che modelli simili a o1 diventeranno gli strumenti predefiniti nella cassetta degli attrezzi dell'intelligenza artificiale per molto tempo a venire. Non vedo l'ora di abbracciare questa nuova visione del mondo e di imparare in prima persona come funzionano questi modelli di addestramento.