- Publié le
Le Modèle O3 d'OpenAI : Un Bond en Avant dans le Raisonnement et une Percée en IA dans le Défi ARC
Le Modèle O3 d'OpenAI : Un Bond en Avant dans le Raisonnement et une Percée en IA dans le Défi ARC
Le développement de l'intelligence artificielle (IA) a connu des avancées fulgurantes ces dernières années, et le modèle O3 d'OpenAI se positionne comme une étape majeure dans cette progression. Ce modèle, succédant à la série O1, a non seulement démontré des capacités de raisonnement améliorées, mais a également réalisé une percée significative dans le cadre du défi ARC AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence).
Points Clés du Modèle O3
- Consensus Multi-Générationnel : Pour le modèle O1, l'obtention de performances optimales dépendait fortement du consensus obtenu à partir de multiples générations. Cette approche est essentielle à toutes les étapes du raisonnement. Il est crucial de ne pas se limiter à un seul flux de sortie pour obtenir les meilleurs résultats.
- Pas de Preuve de Recherche Arborescente : Contrairement aux rumeurs, il n'y a aucune preuve que le modèle O3 ait modifié son architecture de raisonnement en ajoutant une recherche arborescente. La loi de mise à l'échelle du raisonnement stipule que l'échantillonnage de plus de contenu à partir d'un même flux de génération améliore les performances.
- Retour en Force de l'Apprentissage par Renforcement (RL) : L'année en cours marque le retour en force de l'apprentissage par renforcement et de ses méthodes connexes comme éléments centraux de l'IA.
- Modèle O3 et Accessibilité : OpenAI a annoncé un aperçu de son modèle O3, qui s'appuie sur les progrès récents en matière de formation de modèles linguistiques utilisant O1 pour le raisonnement. Ces modèles, à commencer par O3-mini, devraient être accessibles au public d'ici fin janvier 2025.
- Une Année d'Intégration : 2024 est perçue par beaucoup comme une année d'intégration de l'IA, avec de nombreux acteurs ayant atteint un niveau comparable à GPT-4 et explorant des applications concrètes.
- O3 : Une Surprise et une Avancée Rapide : L'arrivée du modèle O3 est une surprise, marquant une avancée rapide dans les modèles de raisonnement, contrairement à l'arrivée attendue du modèle O1.
- Applications Potentielles : Bien que l'applicabilité des modèles de type O1 ait été mise en question dans des domaines autres que les mathématiques, la programmation, la physique et les sciences dures, ils seront bientôt largement utilisés dans l'ensemble de l'écosystème de la recherche en IA.
- Nouveau Sommet pour l'Industrie : Le modèle O3 d'OpenAI indique que l'industrie franchit un nouveau sommet, car les gains issus de la préformation sur des textes Internet sont en diminution.
Percées du Modèle O3 dans les Évaluations de Raisonnement
Le modèle O3 a réalisé des percées significatives dans les évaluations de raisonnement, notamment :
- Dépassement du seuil de 85% au Défi ARC AGI : C'est le premier modèle à dépasser le seuil de 85 % de réussite dans le cadre du défi ARC AGI, bien que cela ait été réalisé sur des ensembles de données publics et au-delà des limites de coût.
- Progression Spectaculaire au Benchmark Frontier Math : Le modèle a réalisé un bond spectaculaire de 2 % à 25 % au nouveau benchmark Frontier Math.
- Améliorations dans les Benchmarks de Programmation : Des améliorations notables ont été constatées dans les benchmarks de programmation, tels que SWE-Bench-Verified.
- Accélération de la Recherche en IA : Ces avancées devraient accélérer la recherche en IA et transformer des rôles d'ingénierie logicielle.
Aperçu du Modèle O3
Le modèle O3 a été annoncé lors du dernier jour de l'événement "Les 12 jours de sorties d'OpenAI". Cette annonce a été accompagnée de résultats impressionnants dans divers domaines, dépassant les modèles les plus avancés précédents (Gemini 1.5 Pro et Claude 3.5 Sonnet New).
Importance du Consensus Multi-Générationnel
Un détail souvent négligé dans les articles de blog et les discussions sur les modèles de la série O1 est la signification des zones ombrées dans les histogrammes. Ces zones représentent les performances obtenues en utilisant le vote majoritaire (consensus) de 64 échantillons. Ce détail souligne l'importance du consensus multi-générationnel pour les performances optimales des modèles O1. Il est crucial de noter que cela ne nécessite pas nécessairement l'utilisation de la recherche arborescente ou d'une représentation intermédiaire. Les modes professionnels de O1 et les résultats du défi ARC reposent sur cette génération parallèle pour atteindre les scores les plus élevés.
Benchmark Frontier Math et Commentaires d'Experts
Le benchmark Frontier Math, introduit le 7 novembre, est considéré comme l'une des rares frontières ouvertes de l'IA. Les commentaires de deux lauréats de la médaille Fields soulignent la difficulté de ce benchmark :
- Terence Tao (Médaille Fields 2006) : "Ces problèmes sont extrêmement difficiles... je pense qu'ils déconcerteront l'IA pendant au moins quelques années."
- Timothy Gowers (Médaille Fields 2006) : "Les problèmes que j'ai vus ne relèvent pas de mon domaine de recherche et semblent totalement insolubles pour moi... Ils semblent d'un niveau de difficulté supérieur aux problèmes de l'IMO (Olympiades internationales de mathématiques)."
Le modèle O3 d'OpenAI est le seul à avoir atteint un score à deux chiffres, avec une progression directe à 25 %.
Performances en Programmation
Dans le domaine de la programmation, OpenAI a présenté un score de 71,7 % sur SWE-Bench Verified, ainsi que des résultats étendus sur Codeforces, un site de compétitions de programmation. Le modèle O3 a atteint le niveau de grand maître international avec un score de 2727 grâce à un vote de consensus avec une valeur N non divulguée, se classant parmi les 200 meilleurs programmeurs de compétition au monde.
Le Modèle O3-mini
Le modèle O3-mini surpasse le modèle O1 tout en étant plus économique. Cela pourrait en faire un modèle plus influent pour un public plus large.
Le Défi ARC AGI et les Nouvelles Avancées
Le défi ARC AGI, proposé par François Chollet, vise à évaluer l'IA d'une manière plus proche de l'intelligence humaine. Les résultats d'OpenAI dans ce défi sont impressionnants :
- Définition de l'Intelligence : L'ARC propose une définition de l'intelligence basée sur l'efficacité de l'acquisition de compétences, en mettant l'accent sur la portée, la difficulté de généralisation, les connaissances a priori et l'expérience.
- Évaluation de l'Intelligence Fluide : L'ARC est conçu pour mesurer une forme d'intelligence fluide générale semblable à celle de l'être humain.
- Prix ARC AGI : Lancé en juin 2024, le prix ARC AGI offre 1 million de dollars pour la première solution qui répond à des critères spécifiques et résout un ensemble de tâches ARC privées, le seuil de réussite étant de 85 %.
Résultats du Modèle O3 dans le Défi ARC AGI
Les résultats d'OpenAI dans le défi ARC AGI sont les suivants :
- GPT-2 (2019) : 0 %
- GPT-3 (2020) : 0 %
- GPT-4 (2023) : 2 %
- GPT-4o (2024) : 5 %
- o1-preview (2024) : 21 %
- o1 high (2024) : 32 %
- o1 Pro (2024) : Environ 50 %
- o3 tuned low (2024) : 76 %
- o3 tuned high (2024) : 87 %
Ces résultats montrent une progression rapide en quelques mois, renversant la perception de la difficulté du défi ARC AGI.
Détails Supplémentaires sur les Tests du Modèle O3
OpenAI a testé le modèle O3 sur deux ensembles de données ARC-AGI :
- Évaluation semi-privée : 100 tâches privées pour évaluer le surajustement.
- Évaluation publique : 400 tâches publiques.
Les tests ont été menés avec deux niveaux de calcul et des tailles d'échantillons variables :
- Mode efficace : 6 échantillons.
- Mode inefficace : 1024 échantillons, avec un coût de calcul 172 fois supérieur.
Exemple de Problème Non Résolu
Bien que le modèle O3 ait réalisé des progrès significatifs, il existe encore des problèmes non résolus, même ceux qui semblent intuitifs pour les humains.
Architecture, Coût et Formation du Modèle O3
L'équipe ARC AGI a collaboré avec OpenAI pour obtenir des estimations de prix pour le modèle O3. Bien que les prix finaux puissent varier, l'équipe a enregistré le coût total et le coût par tâche, comme indicateurs de l'utilisation des ressources de calcul.
Coût et Implications
Les coûts du modèle O3 dépassent largement la limite de 10 000 dollars fixée pour la résolution de 500 tâches. Les coûts par requête sont supérieurs à 1 000 dollars.
Spéculations sur le Fonctionnement du Modèle O3
Il est important de noter que les informations concernant le fonctionnement du modèle O3 sont actuellement spéculatives. Cependant, une hypothèse est que le mécanisme central du modèle O3 semble être une recherche et une exécution de programmes en langage naturel dans l'espace des jetons. Cela pourrait impliquer une recherche d'une chaîne de pensée (CoTs) qui décrit les étapes nécessaires pour résoudre une tâche, éventuellement guidée par un modèle d'évaluation.
Interprétation des Coûts et de la Mise à l'Échelle
Les coûts enregistrés par l'équipe ARC, combinés aux prix d'OpenAI pour le modèle O1 (60 dollars par million de jetons), suggèrent que le modèle O3 génère environ 80 millions de jetons par réponse, ce qui serait impossible sans une amélioration majeure des modèles de contexte long. L'équipe a testé le modèle avec des tailles d'échantillons variables : 6 pour un mode efficace, et 1024 pour un mode inefficace, avec un coût 172 fois supérieur.
Pas de Preuve de Changement d'Architecture
Il n'y a aucune preuve que le modèle O3 ait modifié son architecture en ajoutant une recherche arborescente. La loi de mise à l'échelle du raisonnement stipule que l'échantillonnage de plus de contenu à partir d'un même flux de génération améliore les performances.
Questions Ouvertes
Une question clé est de savoir si le modèle de base de O3 est Orion (nom de code interne d'OpenAI, potentiellement GPT-5), ou si le nouveau modèle de base bénéficie simplement de l'entraînement d'Orion.
Incertitudes et Perspectives d'Avenir
Bien que les détails précis sur le modèle O3 restent incertains, il est clair que les modèles de niveau O1 continueront d'exister à long terme.
Un Exemple de Problème Non Résolu
Un exemple de problème non résolu du défi ARC est présenté, soulignant qu'il reste encore beaucoup à faire.
Le Retour de l'Apprentissage par Renforcement
Un détail inattendu a été partagé par Dario Amodei, cofondateur et PDG d'Anthropic : "…la raison pour laquelle nous mettons à l'échelle ces modèles est que leur intelligence n'est pas suffisante pour nous permettre de faire du RLHF (apprentissage par renforcement avec feedback humain) dessus". L'apprentissage par renforcement (RL) et ses méthodes connexes sont au cœur de l'IA cette année.
Conclusion
Les avancées du modèle O3 d'OpenAI sont un témoignage de la progression constante de l'IA. Il est essentiel de continuer à explorer les possibilités qu'offrent ces modèles et d'adopter une vision du monde où l'IA joue un rôle de plus en plus important.