o1 no es un modelo de chat: la perspectiva de Altman y Brockman

El Modelo o1: Más que un Chat

El artículo aborda la reciente atención que ha generado el modelo o1, aclarando que no fue concebido como un modelo de chat, a pesar de que muchos usuarios inicialmente lo trataron como tal. Esta revelación surgió tras la publicación de un blog titulado "o1 no es un modelo de chat (y ese es el punto)", que captó la atención incluso del CEO de OpenAI, Sam Altman, y del presidente Greg Brockman.

Malentendidos y Frustraciones Iniciales

Ben Hylak, un ex ingeniero de software en SpaceX y diseñador de interacción para Apple VisionOS, compartió su experiencia frustrante con o1. Sus respuestas eran lentas, contradictorias y llenas de diagramas de arquitectura y listas de pros y contras no solicitados. La reacción inicial de Hylak fue que o1 era simplemente "basura".

Hylak experimentó tiempos de espera de 5 minutos para las respuestas.
Las respuestas a menudo eran autocontradictorias y sin sentido.
El modelo proporcionó diagramas y listas no solicitados.

Su frustración lo llevó a publicar en redes sociales su decepción, afirmando que o1 pro era "realmente malo" y que su salida era "casi jerga". Citó el ejemplo de pedir consejo sobre refactorización, y el modelo sugirió fusionar archivos, proporcionó código que no fusionaba archivos y luego saltó a conclusiones no relacionadas.

Un Cambio de Perspectiva

La experiencia de Hylak no fue universal. Algunos usuarios encontraron que o1 era muy eficaz, lo que generó más debates. A través de estas interacciones, Hylak se dio cuenta de su error: estaba utilizando o1 como un modelo de chat cuando no estaba destinado a funcionar como tal.

Este cambio de perspectiva fue bien recibido por Altman, quien señaló que era "interesante ver cómo cambiaban las actitudes de las personas a medida que aprendían a usar o1 (incluida la versión pro)". Greg Brockman se hizo eco de esto señalando que o1 es un tipo de modelo diferente y requiere un enfoque diferente para un rendimiento óptimo.

o1: Un Generador de Informes

El artículo sugiere que, en lugar de un modelo de chat, o1 debería verse como un "generador de informes". Dado suficiente contexto y requisitos de salida claros, o1 puede proporcionar soluciones de manera efectiva. La clave está en cómo se usa el modelo.

De Preguntas a Resúmenes Detallados

Cuando se usan modelos de chat típicos, los usuarios a menudo comienzan con preguntas simples y agregan contexto según sea necesario, participando en interacciones iterativas de ida y vuelta. Sin embargo, o1 no busca contexto adicional. En cambio, los usuarios deben proporcionar mucho contexto por adelantado, descrito como una "tonelada" de información, o aproximadamente diez veces el contexto que usarías para una pregunta estándar.

Proporcionar todos los detalles de las soluciones intentadas.
Incluir volcados completos del esquema de la base de datos.
Explicar los negocios, la escala y la terminología específicos de la empresa.

Se recomienda tratar a o1 como un nuevo empleado, proporcionando toda la información necesaria desde el principio.

Enfoque en la Salida Deseada

Después de proporcionar un contexto extenso, los usuarios deben definir claramente la salida deseada. A diferencia de otros modelos donde los usuarios podrían especificar la personalidad o el proceso de pensamiento, con o1, debes concentrarte únicamente en "qué" quieres, no en "cómo" el modelo debería hacerlo. Esto permite que o1 planifique y ejecute de forma independiente los pasos necesarios, lo que lleva a resultados más rápidos y eficientes.

Fortalezas y Debilidades de o1

o1 sobresale en varias áreas:

Procesamiento de archivos completos: Puede manejar grandes bloques de código y un contexto extenso, a menudo completando archivos completos con errores mínimos.
Reducción de alucinaciones: o1 es preciso en áreas como lenguajes de consulta personalizados (por ejemplo, ClickHouse y New Relic), mientras que otros modelos pueden mezclar la sintaxis.
Diagnóstico médico: o1 puede ofrecer diagnósticos preliminares sorprendentemente precisos basados en imágenes y descripciones.
Explicación de conceptos: Es hábil para explicar conceptos complejos de ingeniería a través de ejemplos.
Generación de planos arquitectónicos: o1 puede crear múltiples planos, compararlos y enumerar pros y contras.
Evaluación: Se muestra prometedor como una herramienta eficaz para evaluar resultados.

Sin embargo, o1 también tiene limitaciones:

Escritura en estilos específicos: Tiende a producir informes en un estilo académico o corporativo y tiene dificultades para adaptarse a tonos específicos.
Construcción de aplicaciones completas: Si bien es competente en la generación de archivos completos, no puede construir una aplicación SaaS completa a través de la iteración. Sin embargo, puede completar características completas, particularmente funcionalidades front-end o back-end simples.

La Importancia del Retraso

El artículo señala que el retraso altera fundamentalmente nuestra percepción de los productos, citando ejemplos como el correo electrónico frente a los mensajes de texto y los mensajes de voz frente a las llamadas telefónicas. Hylak compara o1 con el correo electrónico en lugar de un modelo de chat, debido al retraso en sus respuestas. Este retraso permite nuevos tipos de productos que se benefician de la inteligencia de fondo de alta latencia y larga duración. La pregunta entonces se convierte en: ¿para qué tareas está la gente dispuesta a esperar 5 minutos, una hora, un día o incluso 3-5 días hábiles?

Es importante tener en cuenta que o1-preview y o1-mini admiten la transmisión, pero no la generación estructurada o las indicaciones del sistema, mientras que o1 admite la generación estructurada y las indicaciones del sistema, pero no la transmisión. Comprender estas diferencias será crucial para los desarrolladores al diseñar productos en 2025.