o1 ist kein Chatmodell: Altman und Brockman beobachten

Das o1 Modell: Mehr als ein Chatbot

Der Artikel beleuchtet die jüngsten Diskussionen um das o1 Modell und stellt klar, dass es nicht als Chatmodell konzipiert ist, obwohl viele Benutzer es anfangs so behandelt haben. Diese Erkenntnis kam nach einem Blogbeitrag mit dem Titel "o1 ist kein Chatmodell (und das ist der Punkt)" auf, der sogar die Aufmerksamkeit von OpenAI CEO Sam Altman und Präsident Greg Brockman erregte.

Missverständnisse und Frustrationen

Ben Hylak, ein ehemaliger Softwareentwickler bei SpaceX und Interaction Designer für Apple VisionOS, teilte seine frustrierende Erfahrung mit o1. Er fand die Antworten langsam, oft widersprüchlich und gefüllt mit unerwünschten Architekturdiagrammen und Listen von Vor- und Nachteilen. Hylaks erste Reaktion war, dass o1 einfach "Müll" sei.

Hylak erlebte 5-minütige Wartezeiten auf Antworten.
Die Antworten waren oft widersprüchlich und unsinnig.
Das Modell lieferte unaufgeforderte Diagramme und Listen.

Seine Frustration führte zu Social-Media-Posts, in denen er seine Enttäuschung zum Ausdruck brachte und erklärte, dass o1 Pro "wirklich schlecht" sei und dessen Ausgabe "fast Kauderwelsch". Er gab das Beispiel, dass er um Ratschläge zur Refaktorisierung bat, woraufhin das Modell das Zusammenführen von Dateien vorschlug, Code lieferte, der keine Dateien zusammenführte, und dann zu irrelevanten Schlussfolgerungen sprang.

Ein Perspektivwechsel

Hylaks Erfahrung war nicht universell. Einige Benutzer fanden o1 sehr effektiv, was zu weiteren Diskussionen führte. Durch diese Interaktionen erkannte Hylak seinen Fehler: Er verwendete o1 als Chatmodell, obwohl es nicht dafür gedacht war.

Dieser Perspektivwechsel wurde von Altman begrüßt, der feststellte, dass es "interessant ist zu beobachten, wie sich die Einstellungen der Leute ändern, wenn sie lernen, wie man o1 (einschließlich der Pro-Version) verwendet". Greg Brockman bekräftigte dies, indem er darauf hinwies, dass o1 eine andere Art von Modell ist und einen anderen Ansatz für eine optimale Leistung erfordert.

o1: Ein Berichtsgenerator

Der Artikel schlägt vor, dass o1 anstelle eines Chatmodells als "Berichtsgenerator" betrachtet werden sollte. Bei ausreichendem Kontext und klaren Ausgabewünschen kann o1 effektive Lösungen liefern. Der Schlüssel liegt in der Art und Weise, wie das Modell verwendet wird.

Von Prompts zu Briefings

Bei der Verwendung typischer Chatmodelle beginnen Benutzer oft mit einfachen Fragen und fügen bei Bedarf Kontext hinzu, wobei sie sich in iterativen Hin- und Her-Interaktionen engagieren. o1 sucht jedoch keinen zusätzlichen Kontext. Stattdessen müssen Benutzer im Voraus viel Kontext liefern, der als "Tonnen" von Informationen oder etwa zehnmal so viel Kontext wie bei einem Standard-Prompt beschrieben wird.

Geben Sie alle Details der versuchten Lösungen an.
Fügen Sie vollständige Datenbank-Schema-Dumps ein.
Erläutern Sie unternehmensspezifische Geschäfte, Größenordnungen und Terminologie.

Es wird empfohlen, o1 wie einen neuen Mitarbeiter zu behandeln und von Anfang an alle notwendigen Informationen bereitzustellen.

Fokus auf die gewünschte Ausgabe

Nach der Bereitstellung eines umfangreichen Kontexts müssen die Benutzer die gewünschte Ausgabe klar definieren. Anders als bei anderen Modellen, bei denen Benutzer die Persona oder den Denkprozess angeben könnten, sollten Sie sich bei o1 nur auf das "Was" konzentrieren, das Sie wollen, nicht auf das "Wie" das Modell es tun soll. Dies ermöglicht es o1, die erforderlichen Schritte unabhängig zu planen und auszuführen, was zu schnelleren und effizienteren Ergebnissen führt.

Stärken und Schwächen von o1

o1 zeichnet sich in mehreren Bereichen aus:

Verarbeitung ganzer Dateien: Es kann große Codeblöcke und umfangreichen Kontext verarbeiten und oft ganze Dateien mit minimalen Fehlern vervollständigen.
Reduzierung von Halluzinationen: o1 ist in Bereichen wie benutzerdefinierten Abfragesprachen (z. B. ClickHouse und New Relic) genau, während andere Modelle die Syntax durcheinanderbringen können.
Medizinische Diagnose: o1 kann überraschend genaue vorläufige Diagnosen auf der Grundlage von Bildern und Beschreibungen liefern.
Erläuterung von Konzepten: Es ist geschickt darin, komplexe technische Konzepte anhand von Beispielen zu erklären.
Generierung von Architekturplänen: o1 kann mehrere Pläne erstellen, sie vergleichen und Vor- und Nachteile auflisten.
Bewertung: Es zeigt Potenzial als effektives Werkzeug zur Bewertung von Ergebnissen.

o1 hat jedoch auch Einschränkungen:

Schreiben in bestimmten Stilen: Es neigt dazu, Berichte in einem akademischen oder unternehmerischen Stil zu verfassen und hat Schwierigkeiten, sich an bestimmte Töne anzupassen.
Erstellen ganzer Anwendungen: Obwohl es in der Lage ist, ganze Dateien zu generieren, kann es keine vollständige SaaS-Anwendung durch Iteration erstellen. Es kann jedoch ganze Funktionen vervollständigen, insbesondere Front-End- oder einfache Back-End-Funktionalitäten.

Die Bedeutung der Verzögerung

Der Artikel stellt fest, dass Verzögerungen unsere Wahrnehmung von Produkten grundlegend verändern, und führt Beispiele wie E-Mail vs. Textnachrichten und Sprachnachrichten vs. Telefonanrufe an. Hylak vergleicht o1 aufgrund der Verzögerung seiner Antworten eher mit E-Mail als mit einem Chatmodell. Diese Verzögerung ermöglicht neue Arten von Produkten, die von hoch-latenzfähiger, langlaufender Hintergrundintelligenz profitieren. Die Frage ist dann: Für welche Aufgaben sind die Menschen bereit, 5 Minuten, eine Stunde, einen Tag oder sogar 3-5 Werktage zu warten?

Es ist wichtig zu beachten, dass o1-Preview und o1-Mini Streaming unterstützen, aber keine strukturierte Generierung oder Systemprompts, während o1 strukturierte Generierung und Systemprompts unterstützt, aber kein Streaming. Das Verständnis dieser Unterschiede wird für Entwickler bei der Gestaltung von Produkten im Jahr 2025 von entscheidender Bedeutung sein.