- Publié le
o1 n'est pas un modèle de chat ce qui change la donne
o1: Un Modèle Inattendu
L'article aborde le récent engouement autour du modèle o1, en clarifiant qu'il n'est pas conçu comme un modèle de chat, malgré le fait que de nombreux utilisateurs l'aient initialement considéré comme tel. Cette révélation est survenue après qu'un article de blog intitulé "o1 n'est pas un modèle de chat (et c'est le but)" ait gagné en popularité, attirant même l'attention du PDG d'OpenAI, Sam Altman, et du président, Greg Brockman.
Malentendus et Frustrations
Ben Hylak, ancien ingénieur logiciel chez SpaceX et concepteur d'interaction pour Apple VisionOS, a partagé son expérience frustrante avec o1. Il a trouvé ses réponses lentes, souvent contradictoires et remplies de schémas d'architecture et de listes de pros et de cons non sollicités. La réaction initiale de Hylak a été que o1 était tout simplement "nul".
- Hylak a connu des temps d'attente de 5 minutes pour les réponses.
- Les réponses étaient souvent auto-contradictoires et absurdes.
- Le modèle fournissait des diagrammes et des listes non demandés.
Sa frustration l'a conduit à publier des messages sur les réseaux sociaux exprimant sa déception, affirmant que o1 pro était "vraiment mauvais" et que sa sortie était "presque du charabia". Il a donné l'exemple d'une demande de conseils en matière de refactorisation, où le modèle a suggéré de fusionner des fichiers, a fourni un code qui ne fusionnait pas les fichiers, puis a sauté à des conclusions sans rapport.
Un Changement de Perspective
L'expérience de Hylak n'était pas universelle. Certains utilisateurs ont trouvé o1 très efficace, ce qui a conduit à d'autres discussions. Grâce à ces interactions, Hylak a réalisé son erreur: il utilisait o1 comme un modèle de chat alors qu'il n'était pas destiné à fonctionner comme tel.
Ce changement de perspective a été salué par Altman, qui a noté qu'il était "intéressant de voir les attitudes des gens changer à mesure qu'ils apprennent à utiliser o1 (y compris la version pro)". Greg Brockman a fait écho à cela en soulignant que o1 est un type de modèle différent et nécessite une approche différente pour des performances optimales.
o1 : Un Générateur de Rapports
L'article suggère qu'au lieu d'un modèle de chat, o1 devrait être considéré comme un "générateur de rapports". Avec un contexte suffisant et des exigences de sortie claires, o1 peut fournir des solutions efficacement. La clé réside dans la façon dont le modèle est utilisé.
Des Prompts aux Briefs
Lorsque vous utilisez des modèles de chat typiques, les utilisateurs commencent souvent par des questions simples et ajoutent du contexte au besoin, en s'engageant dans des interactions itératives. Cependant, o1 ne recherche pas de contexte supplémentaire. Au lieu de cela, les utilisateurs doivent fournir beaucoup de contexte dès le départ, décrit comme une "tonne" d'informations, soit environ dix fois le contexte que vous utiliseriez pour une invite standard.
- Fournissez tous les détails des solutions tentées.
- Incluez des dumps complets de schémas de base de données.
- Expliquez les spécificités de l'entreprise, son échelle et sa terminologie.
Il est recommandé de traiter o1 comme un nouvel employé, en fournissant toutes les informations nécessaires dès le début.
Se Concentrer sur la Sortie Souhaitée
Après avoir fourni un contexte étendu, les utilisateurs doivent définir clairement la sortie souhaitée. Contrairement à d'autres modèles où les utilisateurs peuvent spécifier le personnage ou le processus de pensée, avec o1, vous devez vous concentrer uniquement sur "ce que" vous voulez, et non sur "comment" le modèle doit le faire. Cela permet à o1 de planifier et d'exécuter indépendamment les étapes nécessaires, ce qui conduit à des résultats plus rapides et plus efficaces.
Forces et Faiblesses de o1
o1 excelle dans plusieurs domaines:
- Traitement de fichiers entiers: Il peut gérer de grands blocs de code et un contexte étendu, complétant souvent des fichiers entiers avec un minimum d'erreurs.
- Réduction des hallucinations: o1 est précis dans des domaines tels que les langages de requêtes personnalisés (par exemple, ClickHouse et New Relic), tandis que d'autres modèles peuvent mélanger la syntaxe.
- Diagnostic médical: o1 peut offrir des diagnostics préliminaires étonnamment précis basés sur des images et des descriptions.
- Explication de concepts: Il est habile à expliquer des concepts d'ingénierie complexes à travers des exemples.
- Génération de plans architecturaux: o1 peut créer plusieurs plans, les comparer et énumérer les avantages et les inconvénients.
- Évaluation: Il est prometteur en tant qu'outil efficace pour évaluer les résultats.
Cependant, o1 a également des limites:
- Écriture dans des styles spécifiques: Il a tendance à produire des rapports dans un style académique ou d'entreprise et a du mal à s'adapter à des tons spécifiques.
- Construction d'applications entières: Bien qu'il soit compétent pour générer des fichiers entiers, il ne peut pas construire une application SaaS complète par itération. Cependant, il peut compléter des fonctionnalités entières, en particulier les fonctionnalités frontales ou simples de backend.
L'Importance du Délai
L'article note que le délai modifie fondamentalement notre perception des produits, en citant des exemples comme le courrier électronique par rapport à la messagerie texte, et les messages vocaux par rapport aux appels téléphoniques. Hylak compare o1 à un email plutôt qu'à un modèle de chat, en raison du délai de ses réponses. Ce délai permet de nouveaux types de produits qui bénéficient d'une intelligence de fond à haute latence et de longue durée. La question devient alors: pour quelles tâches les gens sont-ils prêts à attendre 5 minutes, une heure, un jour ou même 3 à 5 jours ouvrables?
Il est important de noter que o1-preview et o1-mini prennent en charge le streaming mais pas la génération structurée ou les invites système, tandis que o1 prend en charge la génération structurée et les invites système, mais pas le streaming. Comprendre ces différences sera crucial pour les développeurs lors de la conception de produits en 2025.