- Published on
OpenAI's o3 Model: Een Sprong in Redeneren en ARC AGI Doorbraak
OpenAI's o3 Model: Een Diepgaande Analyse
Meerdere generaties consensus zijn cruciaal voor de optimale prestaties van het o1-model. Dit geldt voor alle berekeningen in de redeneerfasen. Voor de beste resultaten kan men niet alleen op een enkele uitvoerstroom vertrouwen. Er is geen bewijs dat o3 de redeneerarchitectuur heeft gewijzigd door boomzoekacties toe te voegen; alle beweringen zijn slechts van horen zeggen. De kernregel van de wet van redeneerextensie is dat het bemonsteren van meer inhoud uit dezelfde enkele stroom van generatie tot prestatieverbeteringen kan leiden.
Dit jaar is ongetwijfeld het jaar waarin versterkend leren (RL) en gerelateerde methoden zich opnieuw hebben gevestigd als de kern van kunstmatige intelligentie. Vandaag heeft OpenAI een voorbeeld van hun o3-model onthuld, dat voortbouwt op de recente vooruitgang in het trainen van taalmodellen om te redeneren met behulp van o1. Deze modellen beginnen met o3-mini en worden naar verwachting eind januari 2025 openbaar beschikbaar gesteld. Nu 2024 ten einde loopt, beschouwen veel waarnemers dit jaar als een jaar van consolidatie van kunstmatige intelligentie, waarin veel deelnemers het niveau van GPT-4 hebben bereikt en zijn begonnen met het onderzoeken van hoe deze modellen in de praktijk kunnen worden toegepast.
2024 heeft geen opwindend moment gekend zoals de "release van GPT-4". De komst van o3 heeft dit veranderd, omdat het onverwachts is in vergelijking met o1 en een snelle vooruitgang in redeneermodellen markeert. We wisten al lang van de komst van o1, omdat het een lange voorbereidingsperiode had, terwijl de snelle en efficiënte release van o3 ons met verwachtingen voor 2025 achterlaat.
Hoewel velen de toepasbaarheid van o1-klasse modellen buiten de wiskunde, programmeren, natuurkunde en harde wetenschappen in twijfel trekken, zullen deze modellen binnenkort op grote schaal worden gebruikt in het gehele kunstmatige-intelligentie-onderzoeksecosysteem, waardoor de vooruitgang aanzienlijk wordt versneld. Een optimistische visie is dat er nog niet genoeg tijd is geweest om de toepassingen van deze modellen te onderzoeken, en er zijn ook geen openbare versterkende leermethoden om redeneermodellen uit te breiden naar andere gebieden.
OpenAI's o3 laat zien dat de industrie de volgende top beklimt, omdat de winst van het uitsluitend vertrouwen op internettekst voor pretraining afneemt. o3 heeft een belangrijke doorbraak bereikt in redeneerevaluaties, die zich op de volgende manieren manifesteert:
- Dit is het eerste model dat meer dan 85% voltooiing behaalt in de ARC AGI-prijs (opmerking: dit is voltooid op openbare datasets, niet op testsets, en heeft de kostenlimiet overschreden).
- In de gloednieuwe Frontier Math-benchmark steeg de prestatie van 2% naar 25%, een kwalitatieve sprong.
- Aanzienlijke verbeteringen zijn bereikt in alle toonaangevende programmeerbenchmarks (zoals SWE-Bench-Verified).
En dit alles is slechts 3 maanden geleden aangekondigd. Deze veranderingen zullen snel zichtbaar worden door de vooruitgang van kunstmatig intelligentieonderzoek te versnellen. Naarmate de redeneerkosten dalen, zal dit nog een stap zijn in het veranderen van veel software-engineeringrollen zoals we die vandaag kennen.
Tegelijkertijd publiceerde OpenAI een blogpost en een onderzoeksartikel over zorgvuldige afstemming, waaruit blijkt hoe modellen van o1-niveau het veiligheids- en afstemmingsonderzoek kunnen verbeteren. Dit levert enig voorlopig positief bewijs voor een eerder genoemd, breder open probleem: kan verbeterd redeneervermogen waarde opleveren buiten verifieerbare domeinen? Deze vraag zal in 2025 meerdere keren opnieuw worden bekeken.
O3 Overzicht
OpenAI's o3-model werd aangekondigd op de laatste dag van de "OpenAI's 12-daagse lanceringsactiviteit". Deze release ging gepaard met zijn verbazingwekkende prestaties in verschillende domeinen die de eerdere state-of-the-art modellen (Gemini 1.5 Pro en Claude 3.5 Sonnet New) overtroffen.
Een detail dat vaak over het hoofd wordt gezien in de blogposts en gerelateerde communicatie over de o1-serie modellen, is de betekenis van de schaduwen in de staafdiagrammen. In de eerste blogpost van o1 werd dit in de beschrijving van de eerste resultatengrafiek vermeld: de massieve staven vertegenwoordigen de nauwkeurigheid van pass@1, en de gearceerde gebieden vertegenwoordigen de prestaties van het gebruik van 64 samples voor meerderheidsstemming (consensus).
Dit detail geeft aan dat meerdere generaties consensus cruciaal zijn voor de optimale prestaties van het o1-model. Dit geldt voor alle berekeningen in de redeneerfasen - voor de beste resultaten kan men niet alleen op een enkele uitvoerstroom vertrouwen. Dit betekent echter niet dat het noodzakelijk is om boomzoekacties of een soort tussenliggende weergave te gebruiken. De professionele modus van o1, evenals de ARC-prijsresultaten die we zullen bespreken, zijn afhankelijk van deze parallelle generatie om de absolute topscore te bereiken.
Voor een kwalitatieve evaluatie van de Frontier Math-benchmark kunnen de opmerkingen van twee Fields-medaillewinnaars worden geraadpleegd. Hun opmerkingen zijn gericht op de moeilijkste onderdelen van de benchmark, maar dit geeft goed de kwalitatieve doelstellingen weer:
- "Deze onderwerpen zijn buitengewoon uitdagend... Ik denk dat ze AI minstens de komende jaren zullen overbelasten." - Terence Tao, winnaar van de Fields-medaille in 2006.
- "Geen van de vragen die ik zie, behoort tot mijn onderzoeksgebied en ze lijken volledig onoplosbaar voor mij... Ze lijken een niveau hoger te zijn dan de moeilijkheidsgraad van IMO (International Mathematical Olympiad)-problemen." - Timothy Gowers, winnaar van de Fields-medaille in 2006.
Deze benchmark werd op 7 november geïntroduceerd en is een van de weinige open grenzen in AI-capaciteiten die nog moeten worden overwonnen. Deze release positioneert OpenAI's o3 als het enige model dat een score van twee cijfers behaalt, en springt direct naar 25%.
Het tweede toonaangevende resultaat verscheen op het gebied van programmeren. Tijdens een livestream liet OpenAI een score van 71,7% zien op SWE-Bench Verified (een prestatie die tot op zekere hoogte de huidige state-of-the-art is), evenals uitgebreide resultaten op Codeforces (een programmeerwedstrijdwebsite).
o3 behaalde een score van 2727 door consensusstemming bij een niet-openbaar gemaakte N-waarde, wat het niveau van een internationale grootmeester bereikte, en behoort tot de top 200 van menselijke competitieve programmeurs wereldwijd. o3-mini presteert beter dan o1, terwijl de kosten aanzienlijk lager zijn. Gezien de trends die we in 2024 hebben waargenomen, kan dit een invloedrijker model worden voor een bredere gebruikersgroep. Dit maakte de uiteindelijke baanbrekende resultaten in de o3-livestream mogelijk: het effectief oplossen van de ARC AGI-uitdaging.
De ARC-evaluatie aanpakken
De Abstractie en Redeneer Corpus (ARC) is een kunstmatige-intelligentie-evaluatiemethode die in 2019 werd geïntroduceerd door François Chollet in zijn paper "On the Measure of Intelligence". De ARC-evaluatie is ontworpen om nauwer aan te sluiten bij de evaluatie van menselijke intelligentie:
- We hebben een nieuwe formalisatie van intelligentie voorgesteld op basis van algoritmische informatietheorie, waarbij intelligentie wordt beschreven als de efficiëntie van het verwerven van vaardigheden, en we hebben de concepten van bereik, generalisatie-moeilijkheid, voorkennis en ervaring benadrukt. Op basis van deze definitie hebben we een reeks ontwerprichtlijnen voor een universele kunstmatige-intelligentie-benchmark voorgesteld. Ten slotte presenteren we een benchmark die deze richtlijnen strikt volgt - de Abstractie en Redeneer Corpus (ARC), die is gebaseerd op een set expliciete voorkennis, zo dicht mogelijk bij de aangeboren voorkennis van mensen. Wij zijn van mening dat ARC kan worden gebruikt om een soort mensachtige algemene vloeibare intelligentie te meten en een eerlijke vergelijking van algemene intelligentie tussen kunstmatige-intelligentiesystemen en mensen mogelijk te maken.
De ARC AGI-prijs werd in juni 2024 gelanceerd met een prijs van $ 1 miljoen voor de eerste oplossing die aan specifieke criteria voldoet en een reeks privé ARC-taken oplost. De drempel om de taak als "opgelost" te beschouwen, is het bereiken van 85% nauwkeurigheid. Vandaag deelden OpenAI en de ARC-prijs de volgende resultaten:
- Let op de x-as van de prijs; hier komen we later op terug.
Vóór modellen van de o1-klasse bereikte het beste model van OpenAI, GPT-4o, slechts 5% nauwkeurigheid. De snelle vooruitgang van OpenAI in zijn nieuwe redeneermodellen wordt samengevat door Mike Knoop, mede-oprichter van de ARC-prijs:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 high (2024): 32%
- o1 Pro (2024): ongeveer 50%
- o3 tuned low (2024): 76%
- o3 tuned high (2024): 87%
Nog in juni van dit jaar werd algemeen aangenomen dat het oplossen van ARC-AGI extreem moeilijk zou zijn. Enkele maanden later werd dit beeld echter volledig omvergeworpen. Zelfs degenen die optimistisch waren over Q* en andere redeneermethoden hadden niet verwacht dat een dergelijk succes zou worden behaald.
Chollet deelde meer details op de officiële website van de ARC-prijs:
- We hebben o3 getest met twee ARC-AGI-datasets:
- Semi-private evaluatie: 100 privé-taken om overfit te beoordelen.
- Openbare evaluatie: 400 openbare taken.
- Onder begeleiding van OpenAI hebben we tests uitgevoerd op twee rekenniveaus, met variabele samplegroottes: 6 (efficiënte modus) en 1024 (inefficiënte modus, 172 keer de rekenkracht van de vorige).
Hier zijn de testresultaten:
- Opmerking: de specifieke gegevens van de hoge rekencapaciteit van o3 zijn nog niet vrijgegeven, omdat de prijzen en beschikbaarheid van functies nog moeten worden bepaald. De hoeveelheid berekening is ongeveer 172 keer de lage berekeningsconfiguratie.
Hier is bijvoorbeeld een onopgelost probleem:
- Veel problemen zijn erg intuïtief voor mensen. Om deze problemen in het model in te voeren, worden kleuren gecodeerd als getallen en als contextinvoer in de vorm van een raster, zoals Greg Kamradt benadrukte:
Technisch gezien is de prijs nog niet opgeëist, omdat de kosten van de oplossing de drempel overschrijden en niet open source zijn. De wedstrijd gaat door. Binnen een paar jaar zal dit soort intelligentie bijna gratis zijn. Gratis betekent hier dat de kosten van het uitvoeren van redeneringen lager zullen zijn dan de geldwaarde van gebruikersadvertentiegegevens.
Momenteel onthult de prijs van o3 die wordt geciteerd in de ARC-prijsblog (die in de communicatie van OpenAI is gewijzigd in een relatieve prijs ten opzichte van o1) veel details over de werking van de o3-technologie.
De architectuur, kosten en trainingsmethoden van O3
Het ARC AGI-team werkte rechtstreeks met OpenAI samen om een prijsopgave voor hun model te krijgen. De uiteindelijke prijs van o3 zodra het officieel in de API is gelanceerd, zal waarschijnlijk anders zijn. Op basis van het belang van de wet van redeneerextensie heeft het ARC-AGI-team een extra vereiste toegevoegd voor het indienen van oplossingen voor de privé-evaluatie. In hun blogpost documenteerde het team de totale kosten en de kosten per taak als een proxy voor FLOP's of een directe berekening van het gebruik van rekenbronnen.
Dit is in overeenstemming met een regel in de ARC-prijsaankondiging over het openbare leaderboard (een regel die geen verband houdt met de prijs van $1 miljoen):
- $10.000USD is de operationele kostengrens die mag worden besteed aan het oplossen van 500 taken (inclusief 400 taken in de openbare evaluatieset en 100 taken in een nieuwe semi-private evaluatieset), inclusief de kosten van het aanroepen van commerciële API's.
De kosten van o3 overschrijden deze limiet ruimschoots voor de 500 taken in de openbare of semi-openbare evaluatieset. De ARC-prijs laat zien dat de kosten van o3 per vraag ruim $1.000 bedragen. Ze hebben ook aannames gedaan over de aard van het model. Het volgende is bedoeld om de speculatie te sussen of o3 een andere trainingstechniek heeft gebruikt dan o1. Chollet heeft met name duidelijk gemaakt dat hij speculeert:
- Momenteel kunnen we alleen speculeren over hoe o3 precies werkt. Maar het kernmechanisme van o3 lijkt te bestaan uit het zoeken en uitvoeren van natuurlijke taalprogramma's in de tokenruimte - tijdens het testen zoekt het model naar de mogelijke ruimte van denkketens (CoTs) die de stappen beschrijven die nodig zijn om de taak op te lossen, op een manier die enigszins lijkt op een Monte Carlo-boomzoekactie in AlphaZero-stijl. In het geval van o3 wordt de zoekopdracht mogelijk geleid door een soort evaluatormodel.
Nogmaals, de verwijzing en aanname over MCTS (Monte Carlo Tree Search) zijn misleidend, maar begrijpelijk, omdat veel slimme mensen verbaasd zijn over het vermogen van o1 en o3 om dit te bereiken met slechts een enkele forward pass van een taalmodel.
Mijn recente artikel legt uit hoe dit kan worden bereikt door middel van grootschalige versterkende leertraining en laat zien waarom sommige grafieken van OpenAI misleidend zijn over de rekenkosten in de redeneerfase. OpenAI-medewerkers hebben ook de essentie van o3 benadrukt als "slechts een model dat is getraind door middel van versterkend leren".
Desalniettemin analyseren we dit op basis van de kosten die door het ARC-team zijn geregistreerd, in combinatie met de prijzen van OpenAI voor o1 (5.000. Als we de totale kosten delen door de prijs per token, is het resultaat dat het model 80 miljoen tokens per antwoord genereert, wat niet mogelijk is zonder een enorme verbetering van modellen met lange context. Daarom is er gespeculeerd over verschillende zoekarchitecturen.
De sleutel ligt in enkele details in de blogpost van de ARC-prijs, waarin staat:
- Onder begeleiding van OpenAI hebben we tests uitgevoerd op twee rekenniveaus, met variabele samplegroottes: 6 (efficiënte modus) en 1024 (inefficiënte modus, 172 keer de rekenkracht van de vorige).
Volgens SemiAnalysis gebruikte o1 pro de zelfconsistentiemethode of een eenvoudige consensus@N-controle, waarbij de meest voorkomende antwoorden van meerdere parallelle antwoorden op dezelfde vraag worden geselecteerd om de prestaties te verbeteren. Hier kan de samplegrootte N overeenkomen met de waarde van consensus@N, wat suggereert dat de evaluatieconfiguratie van o3 dicht bij de o1 pro-configuratie ligt die klanten kunnen gebruiken, d.w.z. 6 keer de rekenkracht, en een ultrahoge configuratie van 1024 keer de rekenkracht per probleem.
Deze schaal van redeneren zal lange tijd niet beschikbaar zijn voor gewone betalende gebruikers. De meeste gebruikers zullen alleen resultaten van een enkele generatie tot consensus@10 ervaren, afhankelijk van de specificaties van de "professionele" versie van het o1-model.
Ervan uitgaande dat de prijs per miljoen outputtokens nog steeds $60 is, betekent dit als we dit delen door 1024 streams dat het model ongeveer 78.000 tokens per reactie genereert. In feite lijkt o3 ook te profiteren van een groter basismodel, omdat de rekenkosten van o1 aanzienlijk toenemen van alle logaritmische rekenkracht x-assen die OpenAI in de livestream liet zien. Met een groter basismodel zijn deze cijfers volkomen redelijk en impliceren ze niet dat er extra "zoek"-elementen zijn toegevoegd.
Het kernthema dat de vooruitgang van deep learning de afgelopen jaren heeft gestimuleerd, is het vinden van een potentieel rijk gebied en het steeds verder beklimmen ervan. De eerste golf van vooruitgang kwam voort uit pretraining op internetschaal. Nu heeft OpenAI een nieuwe richting gevonden om te beklimmen door de versterkende leertraining en het redeneren met lange context uit te breiden. Aangezien o3 slechts ongeveer drie maanden na de release van o1 door OpenAI werd uitgebracht, is de eenvoudigste verklaring dat het dezelfde architectuur en trainingsmethoden gebruikt, alleen op grotere schaal.
Er is geen bewijs dat o3 de redeneerarchitectuur heeft gewijzigd door boomzoekacties toe te voegen; alle beweringen zijn slechts van horen zeggen. De kernregel van de wet van redeneerextensie is dat het bemonsteren van meer inhoud uit dezelfde enkele stroom van generatie tot prestatieverbeteringen kan leiden.
De belangrijkste vraag is of het basismodel van o3 Orion is (een interne codenaam van OpenAI, mogelijk GPT-5), of dat het nieuwe basismodel alleen profiteert van Orion tijdens de training. Als de omvang van het basismodel met een factor 2 tot 5 is toegenomen, dan zijn deze gegevens, gezien de API-prijzen die door de ARC-prijs zijn gerapporteerd, volledig in lijn met de verwachtingen.
Er is nog steeds onzekerheid over de specifieke details van o3. In de grafieken die door het ARC-team zijn vrijgegeven, staat "(tuned)" naast het o3-model, maar er is nog geen gedetailleerde uitleg over o3. Wanneer we echter kijken naar de trend van de vooruitgang, is het duidelijk dat modellen van o1-niveau op de lange termijn zullen blijven bestaan.
Ten slotte, om bescheiden te blijven, is hier een voorbeeld van een ARC-prijs die o3 niet heeft opgelost. Het is heel eenvoudig.
We hebben duidelijk nog een lange weg te gaan, maar je moet enthousiast zijn en verwachten dat de realiteit van het wijdverbreide gebruik van deze modellen eerder zal komen dan de meeste mensen verwachten. Het is het veiligst om aan te nemen dat AI zal blijven verbeteren.
2024: De terugkeer van RL
Eerder vandaag bracht Anthropic een video uit over het creëren van Anthropic, met verschillende mede-oprichters die aan het gesprek deelnamen. Een onverwacht detail werd gedeeld door mede-oprichter en CEO Dario Amodei:
- "...de hele reden om deze modellen uit te breiden, is dat hun intelligentie nog niet voldoende is om ons in staat te stellen RLHF (versterkend leren met menselijke feedback) erop uit te voeren."
Als een van de grondleggers van het moderne RLHF-concept had Dario waarschijnlijk al een intuïtie dat alle vooruitgang in het afstemmen van technologieën op het punt stond te komen. Deze visie op het potentieel van RLHF is ruimer en diepgaander dan wat de meeste practitioners beseffen.
Dit jaar is ongetwijfeld het jaar waarin versterkend leren (RL) en gerelateerde methoden zich opnieuw hebben gevestigd als de kern van kunstmatige intelligentie.
Het schrijven van dit artikel heeft me ervan overtuigd om in 2025 een soortgelijk redeneergebaseerd taalmodel te trainen. Het voelt alsof standaard pretraining in 2024 een basisvereiste is geworden voor techbedrijven. Het is te verwachten dat modellen die lijken op o1 in de toekomst lange tijd de standaardtools in de kunstmatige-intelligentie-toolbox zullen zijn. Ik kijk er erg naar uit om deze nieuwe wereldvisie te omarmen en zelf te leren hoe deze modellen worden getraind.