- Published on
OpenAIs O3 Modell: Ein Sprung im logischen Denken und ARC AGI Durchbruch
OpenAI's O3 Modell: Ein Sprung im logischen Denken und ARC AGI Durchbruch
Zusammenfassung
Mehrfache Konsensbildung ist entscheidend für die optimale Leistung des o1-Modells. Dies gilt für alle Rechenphasen des logischen Denkens - für optimale Ergebnisse sollte man sich nicht nur auf einen einzigen Ausgabestrom verlassen.
Es gibt keine Beweise dafür, dass o3 die Architektur des logischen Denkens durch Hinzufügen einer Baumsuche verändert hat. Alle Behauptungen sind nur Hörensagen. Das Kernprinzip des Gesetzes der Inferenzskalierung besagt, dass das Sampling von mehr Inhalten aus derselben Einzelstromgenerierung zu einer Leistungssteigerung führen kann.
Dieses Jahr war zweifellos das Jahr, in dem das verstärkte Lernen (RL) und verwandte Methoden wieder als Kern der künstlichen Intelligenz etabliert wurden.
Heute hat OpenAI eine Vorschau seines o3-Modells veröffentlicht, das die jüngsten Fortschritte bei der Schulung von Sprachmodellen für die Verwendung von o1 für das logische Denken weiterentwickelt. Diese Modelle werden mit o3-mini beginnen und voraussichtlich Ende Januar 2025 der Öffentlichkeit zugänglich gemacht. Gegen Ende des Jahres 2024 sehen viele Beobachter dieses Jahr als ein Jahr der Konsolidierung der künstlichen Intelligenz, in dem viele Teilnehmer ein Niveau erreicht haben, das mit GPT-4 vergleichbar ist, und beginnen, die praktische Anwendung dieser Modelle zu erforschen.
2024 gab es keinen so aufregenden Moment wie die "Veröffentlichung von GPT-4". Das Aufkommen von o3 ändert dies, da es unerwarteter ist als o1 und einen schnellen Fortschritt bei logischen Denkmodellen markiert. Wir wussten schon lange von der Ankunft von o1, da es eine lange Vorbereitungszeit durchlief - während die schnelle und effiziente Veröffentlichung von o3 uns mit Vorfreude auf die Entwicklungen im Jahr 2025 erfüllt.
Obwohl viele Leute die Anwendbarkeit von Modellen der Klasse o1 in anderen Bereichen als Mathematik, Programmierung, Physik und den harten Wissenschaften in Frage stellen, werden diese Modelle bald im gesamten Ökosystem der KI-Forschung weit verbreitet sein und die Fortschritte erheblich beschleunigen. Eine optimistische Ansicht ist, dass es noch nicht genug Zeit gab, um die Verwendungsmöglichkeiten dieser Modelle zu erforschen, und es gibt keine öffentlichen Methoden des verstärkten Lernens, um logische Denkmodelle auf andere Bereiche zu erweitern.
OpenAIs o3 zeigt, dass die Branche den nächsten Gipfel erklimmt, da die Gewinne, die man durch das Vortraining mit reinen Internettexten erzielt, abnehmen. o3 hat bedeutende Durchbrüche in der Bewertung des logischen Denkens erzielt, die sich in folgenden Aspekten manifestieren:
- Dies ist das erste Modell, das bei den ARC AGI Awards eine Abschlussquote von über 85 % erreicht (Anmerkung: dies wurde mit öffentlichen Datensätzen und nicht mit Testdatensätzen erreicht und übertraf die Kostenbeschränkungen).
- Bei dem neuen Frontier Math Benchmark ist die Leistung von 2 % auf 25 % gesprungen, was einem qualitativen Sprung entspricht.
- Es wurden erhebliche Verbesserungen bei allen führenden Programmier-Benchmarks (wie SWE-Bench-Verified) erzielt.
- All dies geschah nur 3 Monate nach der Ankündigung der ersten Version des Modells. Diese Veränderungen werden sich bald durch die Beschleunigung der Fortschritte in der KI-Forschung zeigen. Mit sinkenden Kosten für das logische Denken wird dies ein weiterer Schritt sein, der viele Softwareentwickler-Rollen, wie wir sie heute kennen, verändern wird.
Gleichzeitig veröffentlichte OpenAI einen Blogbeitrag und eine Forschungsarbeit über umsichtige Ausrichtung, die zeigen, wie Modelle der Klasse o1 die Sicherheits- und Ausrichtungsforschung verbessern können. Dies liefert einige erste positive Beweise für eine zuvor erwähnte, allgemeinere offene Frage: Kann eine verbesserte Fähigkeit zum logischen Denken einen Wert über überprüfbare Bereiche hinaus schaffen? Diese Frage wird im Jahr 2025 noch oft neu bewertet werden.
O3 Überblick
OpenAIs o3-Modell wurde am letzten Tag der "OpenAI 12-Tage-Veranstaltung" angekündigt. Diese Veröffentlichung ging mit beeindruckenden Ergebnissen in mehreren Bereichen einher, die die zuvor fortschrittlichsten Modelle (Gemini 1.5 Pro und Claude 3.5 Sonnet New) übertrafen.
Ein oft übersehenes Detail in den Blogbeiträgen und der damit verbundenen Kommunikation über Modelle der o1-Serie ist die Bedeutung der Schattierung in den Balkendiagrammen. Dies wurde im ersten Blogbeitrag über o1 in der Beschreibung der ersten Ergebnisgrafik erwähnt: Der ausgefüllte Balken stellt die Genauigkeit von pass@1 dar, während der schattierte Bereich die Leistung bei Verwendung von 64 Stichproben für die Mehrheitsabstimmung (Konsens) darstellt.
Dieses Detail zeigt, dass eine mehrfache Konsensbildung für die optimale Leistung des o1-Modells entscheidend ist. Dies gilt für alle Rechenphasen des logischen Denkens - für optimale Ergebnisse sollte man sich nicht nur auf einen einzigen Ausgabestrom verlassen. Dies bedeutet jedoch nicht, dass man eine Baumsuche oder eine Art Zwischenrepräsentation verwenden muss. Der professionelle Modus von o1 sowie die Ergebnisse des ARC-Awards, die wir besprechen werden, sind auf diese parallele Erzeugung angewiesen, um die absolut höchste Punktzahl zu erreichen.
Für eine qualitative Bewertung des Frontier Math Benchmarks können Sie die Kommentare von zwei Fields-Medaillengewinnern heranziehen. Ihre Kommentare beziehen sich auf den schwierigsten Teil des Benchmarks, aber sie verdeutlichen gut sein qualitatives Ziel:
"Diese Aufgaben sind extrem anspruchsvoll ... Ich denke, sie werden KI zumindest für die nächsten Jahre ratlos machen." - Terence Tao, Fields-Medaille 2006
"Die Aufgaben, die ich gesehen habe, fallen nicht in mein Forschungsgebiet und scheinen für mich völlig unlösbar zu sein ... Sie scheinen eine Stufe schwieriger zu sein als die Aufgaben der IMO (International Mathematical Olympiad)." - Timothy Gowers, Fields-Medaille 2006
Dieser Benchmark wurde am 7. November eingeführt und gilt als eine der wenigen offenen Grenzen in den KI-Fähigkeiten, die noch nicht gemeistert wurden. Diese Veröffentlichung positioniert OpenAIs o3 als das einzige Modell, das eine zweistellige Punktzahl erreicht und direkt auf 25 % springt.
Das zweite führende Ergebnis wurde im Bereich der Programmierung erzielt. In einem Livestream präsentierte OpenAI eine Punktzahl von 71,7 % bei SWE-Bench Verified (diese Punktzahl ist in gewisser Weise der aktuelle Stand der Technik) sowie umfassende Ergebnisse bei Codeforces (einer Website für Programmierwettbewerbe).
o3 erreichte eine Punktzahl von 2727 durch Konsensabstimmung bei einem nicht veröffentlichten N-Wert und erreichte den internationalen Großmeister-Level, der etwa zu den Top 200 der menschlichen Wettkampfprogrammierer weltweit gehört. o3-mini übertrifft o1 in der Leistung und reduziert gleichzeitig die Kosten erheblich. Angesichts des Trends, den wir im Jahr 2024 beobachtet haben, könnte dies ein einflussreicheres Modell für eine breitere Nutzergruppe werden. Dies ermöglichte den ultimativen bahnbrechenden Erfolg im o3-Livestream - die effektive Lösung der ARC AGI Challenge.
Umgang mit der ARC-Bewertung
Der Abstraktions- und Inferenzkorpus (ARC) ist eine Methode zur Bewertung künstlicher Intelligenz, die von François Chollet in seinem Aufsatz "On the Measure of Intelligence" aus dem Jahr 2019 vorgestellt wurde. Der Zweck der ARC-Bewertung ist es, näher an die Bewertung der menschlichen Intelligenz heranzukommen:
Wir haben auf der Grundlage der algorithmischen Informationstheorie eine neue formale Definition von Intelligenz vorgeschlagen, die Intelligenz als Effizienz des Erwerbs von Fähigkeiten beschreibt und die Konzepte von Umfang, Verallgemeinerungsschwierigkeit, Vorwissen und Erfahrung hervorhebt. Auf der Grundlage dieser Definition haben wir eine Reihe von Gestaltungsrichtlinien für einen allgemeinen KI-Benchmark vorgeschlagen. Schließlich stellen wir einen Benchmark vor, der diese Richtlinien strikt befolgt - den Abstraktions- und Inferenzkorpus (ARC), der auf einer Reihe klar definierter Vorannahmen basiert, die so nah wie möglich an den angeborenen Vorannahmen des Menschen liegen. Wir glauben, dass ARC verwendet werden kann, um eine menschenähnliche, allgemeine, fließende Intelligenz zu messen und einen fairen Vergleich der allgemeinen Intelligenz zwischen künstlichen Intelligenzsystemen und Menschen zu ermöglichen.
Der ARC AGI Award wurde im Juni 2024 ins Leben gerufen und vergibt einen Preis von 1 Million US-Dollar an die erste Lösung, die bestimmte Kriterien erfüllt und eine Reihe von privaten ARC-Aufgaben löst. Die Schwelle, um eine Aufgabe als "gelöst" zu betrachten, liegt bei einer Genauigkeit von 85 %. Heute haben OpenAI und der ARC Prize die folgenden Ergebnisse veröffentlicht:
Achten Sie auf die x-Achse des Preises, auf die wir später zurückkommen werden.
Vor den Modellen der Klasse o1 erreichte OpenAIs bestes Modell, GPT-4o, nur eine Genauigkeit von 5 %. Die schnellen Fortschritte von OpenAI bei seinen neuen logischen Denkmodellen werden von Mike Knoop, dem Mitbegründer des ARC-Preises, wie folgt zusammengefasst:
- GPT-2 (2019): 0 %
- GPT-3 (2020): 0 %
- GPT-4 (2023): 2 %
- GPT-4o (2024): 5 %
- o1-preview (2024): 21 %
- o1 high (2024): 32 %
- o1 Pro (2024): ca. 50 %
- o3 tuned low (2024): 76 %
- o3 tuned high (2024): 87 %
Noch im Juni dieses Jahres war man sich allgemein einig, dass die Lösung von ARC-AGI äußerst schwierig sein würde. Doch nur wenige Monate später wurde diese Wahrnehmung völlig auf den Kopf gestellt. Selbst diejenigen, die Q* und anderen Methoden des logischen Denkens optimistisch gegenüberstanden, hatten nicht mit einem solchen Erfolg gerechnet.
Chollet teilte weitere Details auf der offiziellen Website des ARC-Preises mit:
Wir haben o3 mit zwei ARC-AGI-Datensätzen getestet:
- Halbprivate Bewertung: 100 private Aufgaben zur Bewertung von Overfitting
- Öffentliche Bewertung: 400 öffentliche Aufgaben Unter der Anleitung von OpenAI haben wir Tests mit zwei Rechenleistungen und variablen Stichprobengrößen durchgeführt: 6 (effizienter Modus) und 1024 (ineffizienter Modus, 172-fache Rechenleistung des ersteren).
Hier sind die Testergebnisse:
Hinweis: Die genauen Daten für die hohen Rechenkosten von o3 wurden noch nicht veröffentlicht, da die Preisgestaltung und die Verfügbarkeit der Funktionen noch nicht feststehen. Die Rechenleistung ist etwa 172 Mal so hoch wie bei der Konfiguration mit geringer Rechenleistung.
Hier ist zum Beispiel eine ungelöste Aufgabe:
Viele Aufgaben sind für den Menschen sehr intuitiv. Um diese Aufgaben in das Modell einzugeben, werden Farben als Zahlen kodiert und als Kontext in Form eines Gitters eingegeben, wie Greg Kamradt hervorgehoben hat:
Technisch gesehen wurde der Preis noch nicht abgeholt, da die Kosten der Lösung den Schwellenwert übersteigen und nicht Open Source sind. Der Wettbewerb geht weiter. In ein paar Jahren wird diese Art von Intelligenz fast kostenlos sein. Kostenlos bedeutet, dass die Kosten für die Ausführung von Inferenz geringer sein werden als der Geldwert von Nutzerwerbedaten.
Derzeit offenbart der im ARC-Preis-Blog angegebene Preis für o3 (der in der Kommunikation mit OpenAI in einen relativen Preis im Vergleich zu o1 geändert wurde) viele Details über die Funktionsweise der o3-Technologie.
Architektur, Kosten und Trainingsmethoden von O3
Das ARC AGI-Team arbeitete direkt mit OpenAI zusammen, um Kostenschätzungen für sein Modell zu erhalten. Die endgültige Preisgestaltung von o3, sobald es offiziell in die API aufgenommen wurde, wird wahrscheinlich anders aussehen. Aufgrund der Bedeutung des Gesetzes der Inferenzskalierung fügte das ARC-AGI-Team eine zusätzliche Anforderung für die Einreichung von Lösungen für die private Bewertung hinzu. In ihrem Blogbeitrag dokumentierte das Team die Gesamtkosten und die Kosten pro Aufgabe als Proxy-Metrik für FLOPs oder als direkte Berechnung des Verbrauchs von Rechenressourcen.
Dies steht im Einklang mit einer Regel aus der ARC-Preis-Ankündigung für die öffentliche Rangliste (die nichts mit dem Preis von 1 Million US-Dollar zu tun hat):
$10.000 USD ist die maximale Laufzeit, die für die Lösung von 500 Aufgaben (einschließlich der 400 Aufgaben im öffentlichen Bewertungsset und 100 Aufgaben in einem neuen, halböffentlichen Bewertungsset) ausgegeben werden darf, einschließlich der Kosten für die Nutzung der kommerziellen API.
Bei den 500 Aufgaben im öffentlichen oder halböffentlichen Bewertungsset übersteigen die Kosten für o3 diese Grenze bei weitem. Der ARC-Preis zeigt, dass o3 mehr als 1.000 US-Dollar pro Anfrage kostet. Sie stellten auch Hypothesen über die Art des Modells auf. Das Folgende soll die Spekulationen darüber zerstreuen, ob o3 eine andere Trainingsmethode als o1 verwendet hat. Insbesondere hat Chollet deutlich gemacht, dass er spekuliert:
Im Moment können wir nur über die genaue Funktionsweise von o3 spekulieren. Es scheint jedoch, dass der Kernmechanismus von o3 die Suche und Ausführung von natürlichsprachlichen Programmen im Token-Raum ist - das Modell durchsucht beim Testen den Raum möglicher Gedankenketten (CoTs), die die Schritte beschreiben, die zur Lösung der Aufgabe erforderlich sind, und zwar auf eine Weise, die der Monte-Carlo-Baumsuche im AlphaZero-Stil ähneln könnte. Im Falle von o3 kann die Suche von einem bestimmten Evaluierungsmodell geleitet werden.
Es sei noch einmal betont, dass die Erwähnung und die Annahme von MCTS (Monte Carlo Tree Search) irreführend sind, aber verständlich, da viele kluge Leute von der Fähigkeit von o1 und o3 schockiert waren, dies nur durch eine einzige Vorwärtsübertragung des Sprachmodells zu erreichen.
In einem meiner letzten Artikel habe ich erklärt, wie dies durch das Training mit verstärktem Lernen im großen Maßstab erreicht werden kann, und erläutert, warum einige Diagramme von OpenAI bei den Rechenkosten für die Inferenz irreführend sind. Mitarbeiter von OpenAI haben auch die Essenz von o3 betont, "nur ein Modell, das durch verstärktes Lernen trainiert wurde".
Trotzdem analysieren wir auf der Grundlage der vom ARC-Team aufgezeichneten Kosten und in Kombination mit OpenAIs Preisgestaltung für o1 (60,00 USD/Millionen Ausgabetoken). Laut der Ergebnisgrafik des ARC-Awards betragen die Kosten für eine vollständige o3-Anfrage etwa 5000 USD. Wenn man die Gesamtkosten durch den Preis pro Token teilt, erhält man das Ergebnis, dass das Modell 80 Millionen Token pro Antwort generiert hat, was ohne eine enorme Verbesserung der langen Kontextmodelle nicht möglich ist. Daher kommen die Spekulationen über unterschiedliche Sucharchitekturen auf.
Der Schlüssel liegt in einigen Details des Blogbeitrags zum ARC-Preis, in dem es heißt:
Unter der Anleitung von OpenAI haben wir Tests mit zwei Rechenleistungen und variablen Stichprobengrößen durchgeführt: 6 (effizienter Modus) und 1024 (ineffizienter Modus, 172-fache Rechenleistung des ersteren).
Laut SemiAnalysis verwendete o1 pro eine Selbstkonsistenzmethode oder eine einfache consensus@N-Prüfung, um die Leistung zu verbessern, indem die häufigste Antwort aus mehreren parallelen Antworten auf dieselbe Anfrage ausgewählt wurde. Hier kann die Stichprobengröße N dem Wert von consensus@N entsprechen, was darauf hindeutet, dass die Evaluierungskonfiguration von o3 der o1 pro-Konfiguration, die Kunden verwenden können, nahe kommt, d. h. der 6-fachen Rechenleistung, sowie einer extrem hohen Konfiguration mit der 1024-fachen Rechenleistung für jedes Problem.
Diese Größenordnung der Inferenz wird der breiten Masse der zahlenden Nutzer für lange Zeit nicht zur Verfügung stehen. Die meisten Nutzer werden nur mit dem Ergebnis einer einmaligen Generierung bis zu consensus@10 in Berührung kommen, je nach den Spezifikationen der "professionellen" Version des o1-Modells.
Wenn wir davon ausgehen, dass der Preis pro Million Ausgabetoken bei 60 US-Dollar bleibt, bedeutet die Teilung durch 1024 Streams, dass das Modell etwa 78.000 Token pro Antwort generiert. Tatsächlich scheint o3 auch von einem größeren Basismodell zu profitieren, da die Rechenkosten von o1, wie aus allen logarithmischen Rechenmengen auf der x-Achse hervorgeht, die OpenAI im Livestream gezeigt hat, deutlich gestiegen sind. Mit einem größeren Basismodell sind diese Zahlen völlig plausibel und deuten nicht auf das Hinzufügen zusätzlicher "Such"-Elemente hin.
Die zentrale Geschichte, die den Fortschritt des Deep Learning in den letzten Jahren vorangetrieben hat, ist das Finden eines potenziell fruchtbaren Feldes und das ständige Erklimmen desselben. Die erste Welle des Fortschritts kam vom Vortraining im Internetmaßstab. Jetzt hat OpenAI einen neuen Weg gefunden, indem es das Training mit verstärktem Lernen und die lange Kontextinferenz erweitert. Angesichts der Tatsache, dass o3 nur etwa drei Monate von der Veröffentlichung von o1 durch OpenAI entfernt ist, ist die einfachste Erklärung, dass es die gleiche Architektur und Trainingsmethoden verwendet, nur in größerem Maßstab.
Es gibt keine Beweise dafür, dass o3 die Architektur des logischen Denkens durch Hinzufügen einer Baumsuche verändert hat. Alle Behauptungen sind nur Hörensagen. Das Kernprinzip des Gesetzes der Inferenzskalierung besagt, dass das Sampling von mehr Inhalten aus derselben Einzelstromgenerierung zu einer Leistungssteigerung führen kann.
Die Schlüsselfrage ist, ob das Basismodell von o3 Orion (OpenAIs interner Codename, möglicherweise GPT-5) ist oder ob das neue Basismodell nur beim Training von Orion profitiert hat. Wenn die Größe des Basismodells um das 2- bis 5-fache gestiegen ist, sind diese Daten angesichts der API-Preise, die der ARC-Preis berichtet, völlig im Rahmen des Erwarteten.
Es gibt immer noch Unsicherheiten bezüglich der genauen Details von o3. In den vom ARC-Team veröffentlichten Diagrammen ist das o3-Modell mit "(tuned)" gekennzeichnet, aber es gibt noch keine detaillierte Beschreibung von o3. Wenn wir uns jedoch auf den Trend der Fortschritte konzentrieren, wird deutlich, dass Modelle der Klasse o1 langfristig Bestand haben werden.
Zum Schluss, um bescheiden zu bleiben, hier ein Beispiel für einen ARC-Preis, den o3 nicht lösen konnte. Es ist sehr einfach.
Wir haben offensichtlich noch einen langen Weg vor uns, aber Sie sollten sich freuen und darauf freuen, dass diese Modelle früher als von den meisten erwartet weit verbreitet sein werden. Es ist die sicherste Wahl, davon auszugehen, dass die KI weiterhin Fortschritte machen wird.
2024: Die Rückkehr von RL
Anfang des heutigen Tages veröffentlichte Anthropic ein Video zum Thema der Gründung von Anthropic, an dem mehrere Mitbegründer teilnahmen. Ein unerwartetes Detail wurde von dem Mitbegründer und CEO Dario Amodei mitgeteilt:
"...Der ganze Grund, warum wir diese Modelle erweitern, ist, dass ihre Intelligenz noch nicht ausreicht, um RLHF (Reinforcement Learning with Human Feedback) auf ihrer Grundlage durchzuführen."
Als einer der Begründer des modernen RLHF-Konzepts hatte Dario wahrscheinlich schon lange die Intuition, dass alle Fortschritte bei der Feinabstimmungstechnologie bald kommen würden. Diese Sichtweise auf das Potenzial von RLHF ist viel umfassender und weitreichender als das, was die meisten Praktiker wahrnehmen.
Dieses Jahr ist zweifellos das Jahr, in dem das verstärkte Lernen (RL) und verwandte Methoden wieder als Kern der künstlichen Intelligenz etabliert wurden.
Das Schreiben dieses Artikels war der Prozess, mich selbst davon zu überzeugen, im Jahr 2025 ein ähnliches, auf logischem Denken basierendes Sprachmodell zu trainieren. Es fühlt sich an, als ob das Standard-Vortraining für Technologieunternehmen im Jahr 2024 zu einer grundlegenden Anforderung der Branche geworden ist. Es ist absehbar, dass Modelle im Stil von o1 für lange Zeit ein Standardwerkzeug im Werkzeugkasten der künstlichen Intelligenz sein werden. Ich freue mich sehr darauf, diese neue Weltanschauung anzunehmen und die Funktionsweise des Trainings dieser Modelle aus erster Hand zu lernen.