o1 Non è un Modello di Chat: L'Approccio Corretto secondo Altman e Brockman

o1: Non un Tipico Modello di Chat

L'articolo discute il recente clamore attorno al modello o1, chiarendo che non è progettato come un modello di chat, nonostante molti utenti inizialmente lo trattassero come tale. Questa rivelazione è arrivata dopo che un post sul blog intitolato "o1 non è un modello di chat (e questo è il punto)" ha guadagnato terreno, attirando persino l'attenzione del CEO di OpenAI Sam Altman e del presidente Greg Brockman.

Idee Sbagliate e Frustrazioni

Ben Hylak, precedentemente ingegnere del software presso SpaceX e interaction designer per Apple VisionOS, ha condiviso la sua frustrante esperienza con o1. Ha trovato le sue risposte lente, spesso contraddittorie e piene di diagrammi architettonici non richiesti e liste di pro e contro. La reazione iniziale di Hylak è stata che o1 fosse semplicemente "spazzatura".

Hylak ha sperimentato tempi di attesa di 5 minuti per le risposte.
Le risposte erano spesso auto-contraddittorie e senza senso.
Il modello forniva diagrammi e liste non richiesti.

La sua frustrazione ha portato a post sui social media che esprimevano la sua delusione, affermando che o1 pro era "davvero pessimo" e il suo output era "quasi incomprensibile". Ha fatto l'esempio di aver chiesto consigli sul refactoring, solo per far sì che il modello suggerisse di unire i file, fornisse codice che non univa i file e poi saltasse a conclusioni non correlate.

Un Cambiamento di Prospettiva

L'esperienza di Hylak non era universale. Alcuni utenti hanno trovato o1 molto efficace, il che ha portato a ulteriori discussioni. Attraverso queste interazioni, Hylak si è reso conto del suo errore: stava usando o1 come un modello di chat quando non era destinato a funzionare come tale.

Questo cambiamento di prospettiva è stato accolto con favore da Altman, che ha osservato che era "interessante osservare il cambiamento di atteggiamento delle persone mentre imparano a usare o1 (inclusa la versione pro)". Greg Brockman ha fatto eco a questo sottolineando che o1 è un diverso tipo di modello e richiede un approccio diverso per prestazioni ottimali.

o1: Un Generatore di Report

L'articolo suggerisce che invece di un modello di chat, o1 dovrebbe essere visto come un "generatore di report". Dato un contesto sufficiente e chiari requisiti di output, o1 può fornire soluzioni in modo efficace. La chiave è in come viene utilizzato il modello.

Dai Prompt ai Brief

Quando si utilizzano i tipici modelli di chat, gli utenti spesso iniziano con semplici domande e aggiungono contesto secondo necessità, impegnandosi in interazioni iterative avanti e indietro. Tuttavia, o1 non cerca contesto aggiuntivo. Invece, gli utenti devono fornire molto contesto in anticipo, descritto come una "tonnellata" di informazioni, o circa dieci volte il contesto che useresti per un prompt standard.

Fornire tutti i dettagli delle soluzioni tentate.
Includere dump completi dello schema del database.
Spiegare l'attività, la scala e la terminologia specifiche dell'azienda.

Si consiglia di trattare o1 come un nuovo dipendente, fornendo tutte le informazioni necessarie fin dall'inizio.

Focus sull'Output Desiderato

Dopo aver fornito un ampio contesto, gli utenti devono definire chiaramente l'output desiderato. A differenza di altri modelli in cui gli utenti potrebbero specificare la persona o il processo di pensiero, con o1, dovresti concentrarti esclusivamente su "cosa" vuoi, non su "come" il modello dovrebbe farlo. Ciò consente a o1 di pianificare ed eseguire in modo indipendente i passaggi necessari, portando a risultati più rapidi ed efficienti.

Punti di Forza e Debolezze di o1

o1 eccelle in diverse aree:

Elaborazione di file interi: Può gestire grandi blocchi di codice e un ampio contesto, spesso completando interi file con errori minimi.
Riduzione delle allucinazioni: o1 è preciso in aree come i linguaggi di query personalizzati (ad esempio, ClickHouse e New Relic), mentre altri modelli potrebbero confondere la sintassi.
Diagnosi medica: o1 può offrire diagnosi preliminari sorprendentemente accurate basate su immagini e descrizioni.
Spiegazione di concetti: È abile nello spiegare concetti di ingegneria complessi attraverso esempi.
Generazione di piani architettonici: o1 può creare più piani, confrontarli ed elencare pro e contro.
Valutazione: Si dimostra promettente come strumento efficace per la valutazione dei risultati.

Tuttavia, o1 ha anche dei limiti:

Scrittura in stili specifici: Tende a produrre report in uno stile accademico o aziendale e ha difficoltà ad adattarsi a toni specifici.
Costruzione di intere applicazioni: Sebbene sia abile nella generazione di file interi, non può costruire una completa applicazione SaaS attraverso l'iterazione. Tuttavia, può completare intere funzionalità, in particolare front-end o semplici funzionalità back-end.

L'Importanza del Ritardo

L'articolo osserva che il ritardo altera fondamentalmente la nostra percezione dei prodotti, citando esempi come l'email rispetto ai messaggi di testo e i messaggi vocali rispetto alle telefonate. Hylak paragona o1 all'email piuttosto che a un modello di chat, a causa del ritardo nelle sue risposte. Questo ritardo consente nuovi tipi di prodotti che beneficiano di intelligenza di background a latenza elevata e di lunga durata. La domanda diventa quindi: per quali compiti le persone sono disposte ad aspettare 5 minuti, un'ora, un giorno o anche 3-5 giorni lavorativi?

È importante notare che o1-preview e o1-mini supportano lo streaming ma non la generazione strutturata o i prompt di sistema, mentre o1 supporta la generazione strutturata e i prompt di sistema ma non lo streaming. La comprensione di queste differenze sarà cruciale per gli sviluppatori quando progetteranno prodotti nel 2025.