- Published on
Przełomowy model OpenAI o3: Skok w rozumowaniu i ARC AGI
Wprowadzenie do Modelu o3 od OpenAI: Skok w Rozumowaniu i Przełom ARC AGI
W dzisiejszych czasach, kiedy sztuczna inteligencja (AI) rozwija się w zawrotnym tempie, pojawiają się modele, które wyznaczają nowe standardy. Jednym z nich jest model o3 od OpenAI, który stanowi znaczący krok naprzód w dziedzinie rozumowania i osiągnięć w ramach wyzwania ARC AGI (Abstraction and Reasoning Corpus). Ten artykuł zagłębi się w szczegóły tego przełomowego modelu, analizując jego kluczowe cechy, osiągnięcia i implikacje dla przyszłości AI.
Kluczowe Aspekty Modelu o3
Zanim przejdziemy do szczegółów, warto podkreślić kilka kluczowych aspektów, które wyróżniają model o3:
- Konsensus wielokrotnej generacji: Model o3, podobnie jak jego poprzednik o1, opiera się na konsensusie wielokrotnej generacji. Oznacza to, że dla uzyskania najlepszych wyników nie można polegać na pojedynczym wyjściu. Zamiast tego, model przetwarza dane wielokrotnie, a ostateczny wynik jest wypracowywany na podstawie konsensusu tych procesów.
- Brak dowodów na zmianę architektury: Wbrew plotkom, nie ma dowodów na to, że model o3 wprowadził istotne zmiany w architekturze, takie jak wyszukiwanie drzewiaste. Zamiast tego, model wykorzystuje zasadę skalowania wnioskowania, która mówi, że większa liczba próbek z tego samego strumienia danych prowadzi do lepszych wyników.
- Rok wzmocnionego uczenia: Rok 2024 jest rokiem, w którym wzmocnione uczenie (RL) i powiązane metody odzyskują swoją pozycję jako kluczowe elementy rozwoju AI. Model o3 jest tego doskonałym przykładem, pokazując, jak RL może być wykorzystane do tworzenia bardziej zaawansowanych i skutecznych modeli.
Przegląd Modelu o3
Model o3 został zaprezentowany podczas "12 dniowych ogłoszeń OpenAI". Model ten osiągnął zdumiewające wyniki, przewyższając wcześniejsze modele w wielu dziedzinach, takich jak Gemini 1.5 Pro i Claude 3.5 Sonnet New.
Warto zwrócić uwagę na pewien aspekt dotyczący modelu o1, który często jest pomijany. Mowa o cieniowanych słupkach na wykresach. W pierwszym artykule o o1, opis pod pierwszym wykresem wyjaśniał, że słupki pełne reprezentują dokładność pass@1, a cieniowane obszary reprezentują wydajność z zastosowaniem 64 próbek do głosowania większościowego (konsensusu).
Ten szczegół pokazuje, że konsensus wielokrotnej generacji jest kluczowy dla optymalnej wydajności modelu o1. Dotyczy to wszystkich etapów obliczeń w procesie wnioskowania. Nie oznacza to jednak, że konieczne jest użycie wyszukiwania drzewiastego lub jakiejś formy pośredniej reprezentacji. Tryb profesjonalny modelu o1, jak również wyniki w ramach nagrody ARC, opierają się na równoległej generacji w celu osiągnięcia najwyższych wyników.
Przełomowe Wyniki w Testach
Model o3 osiągnął przełomowe wyniki w kilku kluczowych obszarach:
- Nagroda ARC AGI: Model o3 jako pierwszy przekroczył 85% wskaźnik ukończenia w ramach nagrody ARC AGI. Warto zaznaczyć, że wyniki te zostały osiągnięte na zbiorze danych publicznych, a nie testowych, i przekroczyły założone limity kosztowe.
- Frontier Math Benchmark: W nowym teście Frontier Math model o3 osiągnął skok wydajności z 2% do 25%. Ten spektakularny wzrost pokazuje, jak model o3 radzi sobie z wysoce skomplikowanymi zadaniami matematycznymi.
- Testy programowania: Model o3 znacząco poprawił wyniki we wszystkich wiodących testach programowania, takich jak SWE-Bench-Verified.
Te osiągnięcia są tym bardziej imponujące, że od ogłoszenia pierwszej wersji modelu minęły zaledwie 3 miesiące. Zmiany te szybko znajdą odzwierciedlenie w przyspieszeniu postępu w badaniach nad sztuczną inteligencją. Spadek kosztów wnioskowania sprawi, że wiele ról w inżynierii oprogramowania, które znamy dzisiaj, ulegnie zmianie.
Ocena Jakościowa Frontier Math
Jakość testu Frontier Math można ocenić na podstawie komentarzy dwóch laureatów Medalu Fieldsa. Ich opinie dotyczą najtrudniejszych części testu, ale dobrze odzwierciedlają jego cel:
- Terence Tao: "Te zadania są niezwykle trudne... Uważam, że przynajmniej przez kilka najbliższych lat będą one niedostępne dla sztucznej inteligencji."
- Timothy Gowers: "Żadne z tych zadań nie należą do mojej dziedziny badań i wydają się całkowicie nie do rozwiązania... Wydają się być o poziom trudniejsze niż zadania z IMO (Międzynarodowej Olimpiady Matematycznej)."
Test ten został wprowadzony 7 listopada i został uznany za jedną z nielicznych otwartych granic w zdolnościach AI. To wydanie pozycjonuje model o3 OpenAI jako jedyny model, który osiągnął dwucyfrowy wynik, z bezpośrednim skokiem do 25%.
Sukces w Programowaniu i ARC AGI
Drugie wiodące wyniki pojawiły się w dziedzinie programowania. Podczas transmisji na żywo OpenAI zaprezentował wynik 71,7% w SWE-Bench Verified (który jest w pewnym sensie obecnym stanem techniki), a także szerokie wyniki w Codeforces (stronie z konkursami programistycznymi).
Model o3, w pewnej nieujawnionej wartości N, uzyskał wynik 2727 poprzez głosowanie konsensusowe, osiągając poziom arcymistrza międzynarodowego, co plasuje go w okolicach 200 najlepszych programistów na świecie. Model o3-mini osiąga lepsze wyniki niż o1, przy jednoczesnym znacznym obniżeniu kosztów. Biorąc pod uwagę trendy obserwowane w 2024 roku, może to być bardziej wpływowy model, który będzie wykorzystywany przez szerszą grupę użytkowników. To umożliwiło ostateczny przełomowy wynik w transmisji na żywo o3 - skuteczne rozwiązanie wyzwania ARC AGI.
Wyzwanie ARC AGI
Abstrakcyjny i Rozumujący Korpus (ARC) to metoda oceny sztucznej inteligencji, którą François Chollet zaproponował w swoim artykule z 2019 roku pt. "O mierzeniu inteligencji". Ocena ARC ma na celu dokładniejsze odzwierciedlenie sposobu, w jaki oceniana jest ludzka inteligencja:
- Definicja inteligencji: Nowa, sformalizowana definicja inteligencji oparta na algorytmicznej teorii informacji. Inteligencja jest opisywana jako efektywność w zdobywaniu umiejętności, z naciskiem na zakres, trudność generalizacji, wiedzę a priori i doświadczenie.
- Zestaw wytycznych: Wytyczne dotyczące projektowania uniwersalnych benchmarków AI.
- Korpus ARC: Prezentacja benchmarku, który ściśle przestrzega tych wytycznych - Abstrakcyjny i Rozumujący Korpus (ARC). Benchmark ten jest zbudowany na podstawie zestawu predefiniowanej wiedzy a priori, która jest jak najbardziej zbliżona do ludzkiej wrodzonej wiedzy a priori.
Nagroda ARC AGI została uruchomiona w czerwcu 2024 roku z nagrodą w wysokości 1 miliona dolarów dla pierwszego rozwiązania, które spełni określone kryteria i rozwiąże zestaw prywatnych zadań ARC. Uznanie zadania za "rozwiązane" wymaga osiągnięcia 85% dokładności. Dzisiaj OpenAI i ARC Prize podzieliły się następującymi wynikami:
Postęp w Rozwiązywaniu ARC AGI
Przed modelami klasy o1 najlepszy model OpenAI, GPT-4o, osiągnął zaledwie 5% dokładności. Postęp OpenAI w zakresie nowych modeli wnioskowania podsumował współzałożyciel nagrody ARC, Mike Knoop:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 high (2024): 32%
- o1 Pro (2024): około 50%
- o3 tuned low (2024): 76%
- o3 tuned high (2024): 87%
Jeszcze w czerwcu tego roku powszechnie uważano, że rozwiązanie ARC-AGI będzie niezwykle trudne. Jednak zaledwie kilka miesięcy później to przekonanie zostało całkowicie obalone. Nawet ci, którzy byli optymistami co do Q* i innych metod wnioskowania, nie spodziewali się tak dużego sukcesu.
Szczegóły Testów o3 w ARC AGI
Chollet podzielił się większą liczbą szczegółów na oficjalnej stronie nagrody ARC:
- Dwa zbiory danych: Model o3 został przetestowany na dwóch zbiorach danych ARC-AGI:
- Półprywatna ocena: 100 prywatnych zadań do oceny nadmiernego dopasowania.
- Ocena publiczna: 400 zadań publicznych.
- Dwa poziomy obliczeń: Testy odbywały się na dwóch poziomach obliczeniowych, przy zmiennej wielkości próbek: 6 (tryb wydajny) i 1024 (tryb nieefektywny, 172 razy więcej obliczeń).
Wyniki Testów
- Tryb wydajny: Model o3 osiągnął 76% dokładności w publicznych testach.
- Tryb nieefektywny: Model o3 osiągnął 87% dokładności w publicznych testach.
Warto zauważyć, że dokładne dane dotyczące wysokich kosztów obliczeniowych o3 nie zostały jeszcze opublikowane, ponieważ ceny i dostępność funkcji są nadal ustalane. Obciążenie obliczeniowe jest około 172 razy większe niż w przypadku konfiguracji o niskim obciążeniu obliczeniowym.
Przykład Nierozwiązanego Zadania
Poniżej znajduje się przykład nierozwiązanego zadania:
Wiele zadań jest bardzo intuicyjnych dla ludzi. Aby wprowadzić te zadania do modelu, kolory są kodowane jako liczby i wprowadzane jako kontekst w formie siatki, jak podkreśla Greg Kamradt.
Z technicznego punktu widzenia nagroda nie została jeszcze odebrana, ponieważ koszt rozwiązania przekroczył próg i nie jest on otwarty. Konkurs trwa. W ciągu kilku lat tego typu inteligencja stanie się prawie darmowa. Darmowa, w sensie, że koszt prowadzenia wnioskowania będzie niższy niż wartość pieniężna danych reklamowych użytkownika.
Architektura, Koszty i Trening Modelu o3
Zespół ARC AGI współpracował bezpośrednio z OpenAI w celu uzyskania szacunków cenowych dla modelu. Ostateczna cena o3 po oficjalnym uruchomieniu w API najprawdopodobniej będzie inna. Zespół ARC-AGI wprowadził dodatkowe wymaganie dla zgłoszeń rozwiązań do prywatnej oceny, w oparciu o wagę prawa rozszerzania wnioskowania. W swoim artykule na blogu zespół odnotował całkowity koszt i koszt na zadanie jako wskaźnik zastępczy FLOPów lub bezpośredni pomiar wykorzystania zasobów obliczeniowych.
Jest to zgodne z zasadą ogłoszoną w konkursie ARC dotyczącą publicznej tablicy wyników (która nie jest związana z nagrodą w wysokości 1 miliona dolarów):
10 000 USD to górny limit kosztów operacyjnych, jakie można wydać na rozwiązanie 500 zadań (w tym 400 z publicznego zbioru oceny i 100 z nowego półprywatnego zbioru oceny), w tym koszty wywoływania komercyjnych interfejsów API.
Koszt modelu o3 w 500 zadaniach z publicznego lub półpublicznego zbioru oceny znacznie przekroczył ten limit. Nagroda ARC wykazała, że koszt jednego zapytania o3 znacznie przekracza 1000 USD. Zespół postawił również hipotezy dotyczące natury modelu. Poniższe informacje mają na celu rozwianie spekulacji na temat tego, czy o3 zastosował inną technikę treningową niż o1. W szczególności Chollet wyraźnie stwierdził, że są to jego spekulacje:
"Obecnie możemy jedynie spekulować na temat tego, jak dokładnie działa o3. Wydaje się jednak, że podstawowym mechanizmem o3 jest wyszukiwanie i wykonywanie programów w języku naturalnym w przestrzeni tokenów - podczas testowania model przeszukuje przestrzeń możliwych łańcuchów myślowych (CoTs), które opisują kroki potrzebne do rozwiązania zadania, w sposób, który może być nieco podobny do wyszukiwania drzewa Monte Carlo w stylu AlphaZero. W przypadku o3 wyszukiwanie może być kierowane przez jakiś model oceny."
Ponownie, odniesienia do MCTS (wyszukiwania drzewa Monte Carlo) i hipotezy są mylące, ale zrozumiałe, ponieważ wiele inteligentnych osób jest zszokowanych zdolnością o1 i o3 do osiągania tego wyłącznie poprzez pojedyncze przejście do przodu modelu językowego.
W ostatnim artykule wyjaśniono, jak można to osiągnąć poprzez uczenie się wzmocnieniem na dużą skalę, i pokazano, dlaczego niektóre wykresy OpenAI są mylące w odniesieniu do kosztów obliczeniowych na etapie wnioskowania. Pracownicy OpenAI również podkreślali, że o3 "to tylko model wytrenowany poprzez uczenie się wzmocnieniem".
Niemniej jednak, w oparciu o koszty odnotowane przez zespół ARC i w połączeniu z ceną OpenAI za o1 (60,00 USD/milion tokenów wyjściowych), dokonano analizy. Z wykresów z wynikami nagrody ARC wynika, że koszt jednego zapytania do pełnego modelu o3 wynosi około 5000 USD. Dzieląc całkowity koszt przez cenę za token, otrzymujemy wynik, że model generuje 80 milionów tokenów na odpowiedź, co jest niemożliwe bez ogromnej poprawy w przypadku modeli o długim kontekście. Stąd spekulacje na temat różnych architektur wyszukiwania.
Kluczowe są pewne szczegóły z artykułu na blogu o nagrodach ARC, w którym napisano:
"Pod kierunkiem OpenAI testowaliśmy na dwóch poziomach obliczeń, przy zmiennej wielkości próbek: 6 (tryb wydajny) i 1024 (tryb nieefektywny, 172 razy więcej obliczeń)."
Według SemiAnalysis, o1 pro wykorzystuje metodę samodzielnej spójności lub proste sprawdzenie consensus@N, aby poprawić wydajność, wybierając najczęstszą odpowiedź z wielu równoległych odpowiedzi na to samo zapytanie. W tym miejscu wielkość próbki N może odpowiadać wartości consensus@N, co sugeruje, że konfiguracja oceny o3 jest zbliżona do konfiguracji o1 pro, z której mogą korzystać klienci, czyli 6 razy więcej obliczeń, oraz ultrawysoka konfiguracja, która wynosi 1024 razy więcej obliczeń na zadanie.
Ten zakres wnioskowania nie będzie dostępny dla zwykłych płacących użytkowników przez długi czas. Większość użytkowników będzie miała do czynienia z wynikiem od jednej generacji do consensus@10, w zależności od specyfikacji "profesjonalnej" wersji modelu o1.
Zakładając, że cena za milion tokenów wyjściowych nadal wynosi 60 USD, podzielenie jej przez 1024 strumienie oznacza, że model generuje około 78 000 tokenów na odpowiedź. W rzeczywistości wydaje się, że o3 korzysta również z większego modelu bazowego, ponieważ koszty obliczeniowe o1 znacznie wzrosły, patrząc na wszystkie osie logarytmicznych kosztów obliczeniowych x, które OpenAI pokazało w transmisji na żywo. Przy większym modelu bazowym te liczby są całkowicie rozsądne i nie sugerują dodania dodatkowego elementu "wyszukiwania".
W ostatnich latach główną historią napędzającą postęp w głębokim uczeniu się było znalezienie potencjalnie bogatej dziedziny i ciągłe wspinanie się po niej. Pierwsza fala postępu pochodziła z treningu wstępnego na skalę internetową. Teraz OpenAI znalazło nowy kierunek wspinania się, rozszerzając uczenie się wzmocnieniem i wnioskowanie o długim kontekście. Biorąc pod uwagę, że od wydania o1 przez OpenAI do o3 minęły zaledwie trzy miesiące, najprostszym wyjaśnieniem jest to, że wykorzystuje on tę samą architekturę i metody treningowe, tylko na większą skalę.
Nie ma żadnych dowodów na to, że o3 zmienił architekturę wnioskowania poprzez dodanie wyszukiwania drzewiastego, a wszystkie twierdzenia to tylko pogłoski. Podstawową zasadą prawa rozszerzania wnioskowania jest to, że próbkowanie większej ilości treści z tej samej generacji pojedynczego strumienia może poprawić wydajność.
Kluczowe pytanie brzmi, czy model bazowy o3 to Orion (wewnętrzna nazwa kodowa OpenAI, prawdopodobnie GPT-5), czy też nowy model bazowy korzysta z Oriona tylko podczas treningu. Jeśli skala modelu bazowego wzrosła od 2 do 5 razy, to dane te są w pełni zgodne z cenami API podanymi w nagrodzie ARC.
Szczegóły dotyczące o3 pozostają niepewne. Na wykresach opublikowanych przez zespół ARC model o3 jest oznaczony jako "(dostrojony)", ale nie ma jeszcze szczegółów dotyczących o3. Kiedy jednak przyjrzymy się trendowi postępu, staje się jasne, że modele poziomu o1 pozostaną z nami na dłuższą metę.
Na koniec, dla zachowania pokory, oto przykład zadania z nagrody ARC, którego o3 nie udało się rozwiązać. Jest bardzo prosty.
Oczywiście mamy jeszcze długą drogę do przebycia, ale powinieneś być podekscytowany i oczekiwać, że rzeczywistość powszechnego wykorzystania tych modeli nadejdzie wcześniej, niż większość ludzi się spodziewa. Zakładanie, że sztuczna inteligencja będzie w dalszym ciągu robić postępy, jest najbezpieczniejszą opcją.
2024: Powrót RL
Wcześniej w tym roku firma Anthropic opublikowała film o procesie tworzenia Anthropic, z udziałem kilku współzałożycieli. Jeden z nieoczekiwanych szczegółów został podzielony przez współzałożyciela i dyrektora generalnego Dario Amodei:
"...Całym celem skalowania tych modeli jest to, że ich inteligencja nie jest jeszcze wystarczająca, abyśmy mogli na ich podstawie przeprowadzić RLHF (uczenie się wzmocnieniem z informacją zwrotną od ludzi)."
Jako jeden z założycieli współczesnej koncepcji RLHF, Dario prawdopodobnie już intuicyjnie wyczuwał, że wszystkie postępy w technikach dostrajania dopiero nadejdą. To spojrzenie na potencjał RLHF jest szersze i głębsze niż to, co widzi większość praktyków.
Rok ten jest niewątpliwie rokiem, w którym uczenie się wzmocnieniem (RL) i powiązane metody odzyskują swoją pozycję jako kluczowe elementy sztucznej inteligencji.
Proces pisania tego artykułu przekonał mnie, że w 2025 roku należy wyszkolić model językowy oparty na wnioskowaniu, taki jak ten. To uczucie jest podobne do tego, jak w 2024 roku dla firm technologicznych standardowy trening wstępny stał się podstawowym wymaganiem branżowym. Można przewidzieć, że modele w stylu o1 będą domyślnym narzędziem w zestawie narzędzi sztucznej inteligencji przez długi czas. Bardzo chcę przyjąć ten nowy światopogląd i samemu nauczyć się, jak działają te modele.