- Published on
El Modelo O3 de OpenAI: Un Salto en el Razonamiento y Avance en ARC AGI
Avances Clave del Modelo O3 de OpenAI
El reciente anuncio del modelo O3 de OpenAI ha generado un gran revuelo en la comunidad de la inteligencia artificial, marcando un hito importante en la evolución de los modelos de razonamiento. Este modelo, que se espera esté disponible al público a finales de enero de 2025, se posiciona como un sucesor del modelo o1, destacando por su capacidad de superar las limitaciones de sus predecesores y alcanzar resultados sin precedentes en diversas pruebas y benchmarks.
Consenso en la Generación Múltiple: Un aspecto crucial para el rendimiento óptimo del modelo o1, que también se aplica al o3, es el uso de múltiples generaciones y el consenso. Esto significa que, en lugar de depender de una única salida, se generan varias y se utiliza un sistema de votación para determinar la respuesta más precisa. Este enfoque es fundamental en todas las etapas del razonamiento, lo que subraya la importancia de no depender de un solo flujo de salida para obtener resultados óptimos.
Arquitectura de Razonamiento: Contrariamente a las especulaciones, no hay evidencia que sugiera que el modelo o3 haya modificado su arquitectura de razonamiento incorporando la búsqueda en árbol. La ley de escalado del razonamiento establece que el rendimiento mejora al muestrear más contenido de la misma generación de flujo único. Esto indica que la mejora del o3 se debe principalmente a una mayor escala y optimización, en lugar de un cambio fundamental en su estructura.
El Retorno del Aprendizaje por Refuerzo: El 2024 se ha consolidado como el año en el que el aprendizaje por refuerzo (RL) y sus métodos relacionados han recuperado su papel central en la inteligencia artificial. El modelo o3 ejemplifica esta tendencia, ya que se basa en los avances recientes en el entrenamiento de modelos de lenguaje para el razonamiento utilizando el modelo o1.
El Impacto y Significado del Modelo O3
El lanzamiento del modelo o3 ha sido un punto de inflexión en el 2024, un año que, hasta ahora, no había tenido un anuncio tan impactante como el lanzamiento de GPT-4. La rápida y eficiente presentación del o3, en contraste con el período de preparación más largo del o1, ha generado grandes expectativas para el desarrollo de la IA en 2025.
Aplicaciones Más Allá de las Ciencias Duras: A pesar de las dudas iniciales sobre la aplicabilidad de los modelos o1 en áreas fuera de las matemáticas, la programación, la física y las ciencias duras, se espera que estos modelos se utilicen ampliamente en todo el ecosistema de investigación de la IA, acelerando significativamente el progreso en diversas disciplinas. Existe un optimismo generalizado sobre la posibilidad de explorar nuevas aplicaciones de estos modelos, a pesar de la falta de métodos de entrenamiento de aprendizaje por refuerzo disponibles públicamente para expandirlos a otros campos.
Un Nuevo Nivel de Rendimiento: El modelo o3 representa un avance significativo en el rendimiento de la IA, demostrando que los beneficios de depender únicamente del texto de internet para el pre-entrenamiento están disminuyendo. El o3 ha logrado avances notables en las evaluaciones de razonamiento, destacando en:
- El Premio ARC AGI: Se convirtió en el primer modelo en superar el 85% de finalización en el premio ARC AGI (en datos públicos, no de prueba, y excediendo los límites de costo).
- Benchmark Frontier Math: Ha experimentado un salto cualitativo en el benchmark Frontier Math, pasando del 2% al 25% de rendimiento.
- Benchmarks de Programación: Ha mostrado mejoras notables en todos los benchmarks de programación líderes, como SWE-Bench-Verified.
Estos logros se han producido en un corto período de tiempo, apenas tres meses desde el anuncio de la primera versión del modelo, lo que subraya el ritmo acelerado de la innovación en el campo de la IA. La reducción en los costos de razonamiento promete cambiar muchos de los roles de ingeniería de software que conocemos hoy en día.
Énfasis en la Seguridad y la Alineación: Simultáneamente al lanzamiento del modelo o3, OpenAI ha publicado un artículo de blog y un documento de investigación sobre la alineación prudente, mostrando cómo los modelos de nivel o1 pueden mejorar la seguridad y la investigación de la alineación. Esto ha proporcionado evidencia inicial sobre la posibilidad de que las capacidades de razonamiento mejoradas aporten valor más allá de los dominios verificables. Este tema se volverá a tratar en 2025.
Detalles Clave del Modelo O3
El modelo o3 fue anunciado durante el último día del evento "OpenAI's 12 Days of Releases". Este anuncio vino acompañado de resultados impresionantes que superaron los modelos más avanzados anteriores (Gemini 1.5 Pro y Claude 3.5 Sonnet New) en múltiples áreas.
El Significado de las Sombras en los Gráficos: Un detalle a menudo pasado por alto en los artículos de blog y las discusiones sobre los modelos de la serie o1 es el significado de las sombras en los gráficos de barras. En el primer artículo de blog del o1, la leyenda de la primera gráfica de resultados indicaba que las barras sólidas representaban la precisión pass@1, mientras que las áreas sombreadas indicaban el rendimiento utilizando el voto mayoritario (consenso) de 64 muestras. Este detalle resaltaba que el consenso de múltiples generaciones era esencial para el rendimiento óptimo del modelo o1.
Benchmark Frontier Math: Un Desafío Superado: El benchmark Frontier Math fue introducido el 7 de noviembre y se consideró una de las pocas fronteras abiertas restantes en las capacidades de la IA. Los comentarios de dos ganadores de la Medalla Fields sobre la dificultad de este benchmark ilustran el reto que suponía:
- Terence Tao: "Estos problemas son extremadamente desafiantes... Creo que mantendrán a la IA a raya durante al menos los próximos años".
- Timothy Gowers: "Ninguno de los problemas que he visto está dentro de mi campo de estudio y parece totalmente irresoluble para mí... Parecen estar un nivel por encima de la dificultad de los problemas de la IMO (Olimpiada Internacional de Matemáticas)".
El lanzamiento del o3 posicionó a OpenAI como el único modelo en alcanzar una puntuación de dos dígitos, saltando directamente al 25%.
Avances en Programación: En el campo de la programación, OpenAI mostró un resultado del 71.7% en SWE-Bench Verified (un logro significativo), y resultados extensos en Codeforces (un sitio web de competencias de programación). El o3 alcanzó una puntuación de 2727 utilizando el voto de consenso en un valor N no revelado, lo que lo sitúa al nivel de un Gran Maestro Internacional, aproximadamente entre el 200 mejor de los programadores de competición humana. El modelo o3-mini supera al o1 en rendimiento, a la vez que reduce significativamente los costes.
El Desafío ARC AGI y el Éxito del O3
El Corpus de Abstracción y Razonamiento (ARC) es un método de evaluación de la inteligencia artificial propuesto por François Chollet en su artículo de 2019, "On the Measure of Intelligence". La evaluación ARC fue diseñada para acercarse a la evaluación de la inteligencia humana, proponiendo una nueva definición de inteligencia basada en la teoría algorítmica de la información, describiendo la inteligencia como la eficiencia en la adquisición de habilidades y enfatizando los conceptos de alcance, dificultad de generalización, conocimiento previo y experiencia.
El Premio ARC AGI: El premio ARC AGI, lanzado en junio de 2024, ofrece un millón de dólares al primer equipo que cumpla criterios específicos y resuelva un conjunto de tareas ARC privadas. El umbral para considerar una tarea "resuelta" es alcanzar una precisión del 85%. Los resultados compartidos por OpenAI y el Premio ARC revelaron un progreso notable:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 high (2024): 32%
- o1 Pro (2024): ~50%
- o3 tuned low (2024): 76%
- o3 tuned high (2024): 87%
Estos resultados son asombrosos, ya que en junio de este año se consideraba extremadamente difícil resolver el ARC-AGI. El o3 ha superado las expectativas, incluso de aquellos que eran optimistas sobre el potencial de Q* y otros métodos de razonamiento.
Detalles de la Evaluación ARC: Chollet compartió detalles adicionales en el sitio web del Premio ARC:
- Se utilizaron dos conjuntos de datos ARC-AGI: una evaluación semi-privada (100 tareas privadas) para comprobar el sobreajuste y una evaluación pública (400 tareas públicas).
- Las pruebas se realizaron con dos niveles de cálculo: 6 (modo eficiente) y 1024 (modo ineficiente, 172 veces más computación).
Los resultados mostraron un aumento significativo en la precisión al usar el modo de alto cálculo, pero los datos específicos y el precio del o3 con alto cálculo aún no se han publicado.
Arquitectura, Costos y Entrenamiento del Modelo O3
El equipo de ARC AGI colaboró directamente con OpenAI para obtener estimaciones de precios de sus modelos. Los precios finales del o3 después de su lanzamiento oficial en la API podrían ser diferentes. Dada la importancia de la ley de escalado del razonamiento, el equipo de ARC-AGI añadió un requisito adicional para las presentaciones de soluciones para la evaluación privada, registrando el coste total y el coste por tarea como indicadores directos del uso de recursos computacionales.
Costos del Modelo O3: El coste del o3 superó ampliamente el límite de 10.000 dólares establecido para resolver 500 tareas en los conjuntos de evaluación públicos y semi-privados. Los datos del premio ARC indican que el coste por consulta del o3 es superior a 1.000 dólares.
Especulaciones Sobre la Arquitectura: Actualmente, solo se puede especular sobre cómo funciona el o3. Parece que su mecanismo central implica la búsqueda y ejecución de programas en lenguaje natural dentro del espacio de tokens. El modelo parece buscar cadenas de pensamiento (CoTs) que describen los pasos necesarios para resolver las tareas, de una manera similar a la búsqueda en árbol de Monte Carlo al estilo AlphaZero. En el caso del o3, la búsqueda podría estar guiada por un modelo evaluador.
Aprendizaje por Refuerzo a Gran Escala: A pesar de las especulaciones sobre la búsqueda en árbol de Monte Carlo, el núcleo del éxito del o3 radica en el entrenamiento de aprendizaje por refuerzo a gran escala. Los empleados de OpenAI han enfatizado que el o3 es "solo un modelo entrenado mediante aprendizaje por refuerzo".
Análisis de Costos y Tokens: Tomando como base el coste registrado por el equipo de ARC y el precio de OpenAI para el o1 (60,00 dólares por millón de tokens de salida), se estima que el coste por consulta del o3 es de aproximadamente 5.000 dólares. Dividiendo este coste por el precio por token, se obtiene que el modelo genera 80 millones de tokens por respuesta, una cantidad que sería imposible sin mejoras significativas en los modelos de contexto largo.
Consenso y Escalado: El equipo de ARC mencionó que las pruebas se realizaron con diferentes tamaños de muestra: 6 (modo eficiente) y 1024 (modo ineficiente). El o1 pro utiliza métodos de autocoherencia o comprobaciones simples de consensus@N para mejorar el rendimiento. La configuración de evaluación del o3 podría ser similar a las configuraciones disponibles para los clientes del o1 pro, con 6 veces más cálculo y una configuración súper alta con 1024 veces más cálculo por pregunta.
El Futuro de los Modelos de Razonamiento: Es probable que esta escala de razonamiento no esté disponible para los usuarios de pago comunes durante mucho tiempo. La mayoría de los usuarios tendrán acceso a una generación única o a resultados de consensus@10. Suponiendo que el precio por millón de tokens de salida siga siendo de 60 dólares, dividirlo por 1024 flujos implica que el modelo genera unos 78.000 tokens por respuesta. El modelo o3 parece beneficiarse de un modelo base más grande, ya que el coste computacional del o1 aumentó significativamente en todos los ejes x de cálculo logarítmico que OpenAI mostró en la retransmisión en directo.
El Poder del Escalado: La historia central del avance del aprendizaje profundo en los últimos años ha sido la de encontrar un área de alto potencial y escalarla continuamente. La primera ola de avances provino del pre-entrenamiento a escala de Internet. Ahora, OpenAI ha encontrado una nueva dirección de escalado ampliando el entrenamiento del aprendizaje por refuerzo y el razonamiento de contexto largo. Dado que el o3 se lanzó apenas tres meses después del o1, la explicación más sencilla es que utiliza la misma arquitectura y métodos de entrenamiento, pero a una escala mayor.
Conclusión sobre la Arquitectura del O3: No hay evidencia que sugiera que el o3 haya cambiado su arquitectura de razonamiento añadiendo una búsqueda en árbol. La regla central de la ley de escalado del razonamiento es que el muestreo de más contenido de la misma generación de flujo único puede mejorar el rendimiento.
El Modelo Base del O3: La pregunta clave es si el modelo base del o3 es Orion (nombre en clave interno de OpenAI, posiblemente GPT-5), o si el nuevo modelo base simplemente se benefició de Orion durante el entrenamiento. Si el tamaño del modelo base se ha incrementado entre 2 y 5 veces, los datos de los precios de la API informados por el premio ARC son totalmente consistentes con lo esperado.
Incertidumbre y el Futuro: Aún existen incertidumbres sobre los detalles específicos del o3. Los gráficos publicados por el equipo de ARC indicaban "(tuned)" junto al modelo o3, pero aún no se han dado detalles sobre el ajuste del o3. Sin embargo, al observar las tendencias del progreso, está claro que los modelos de nivel o1 llegaron para quedarse.
Un Ejemplo de Limitación: Para mantener la humildad, aquí hay un ejemplo de un premio ARC que el o3 no pudo resolver. Es muy sencillo, pero ilustra que aún queda un largo camino por recorrer.
El Regreso del Aprendizaje por Refuerzo
El 2024 ha sido el año de la consolidación del aprendizaje por refuerzo (RL) y sus métodos relacionados como núcleo de la inteligencia artificial. Un detalle inesperado compartido por Dario Amodei, cofundador y CEO de Anthropic, sobre el proceso de creación de Anthropic, revela que:
- "... La razón principal para ampliar estos modelos es que su inteligencia aún no es suficiente para que podamos realizar RLHF (aprendizaje por refuerzo a partir de la retroalimentación humana) sobre ellos".
Esta perspectiva sobre el potencial del RLHF es más amplia y profunda que la de la mayoría de los profesionales. El aprendizaje por refuerzo ha recuperado su papel central en la IA en 2024, y se espera que los modelos basados en el razonamiento como el o3 se conviertan en herramientas estándar en el campo de la inteligencia artificial en el futuro.