- Published on
Преглед на модела O3 на OpenAI: Скок в разсъжденията и пробив в ARC AGI
Акценти от O3 модела на OpenAI
Множественото генериране на консенсус е от решаващо значение за оптималната производителност на моделите от типа o1. Това е валидно за всички етапи на изчисление на разсъждения – не трябва да се разчита само на един изходен поток, за да се постигнат най-добри резултати.
Няма доказателства, че o3 е променил архитектурата на разсъжденията чрез добавяне на дървовидно търсене, всички твърдения са само слухове. Основното правило на закона за разширяване на разсъжденията е, че вземането на повече проби от едно и също еднопоточно генериране може да доведе до подобрение на производителността.
Тази година, без съмнение, е годината, в която обучението с подсилване (RL) и свързаните с него методи се утвърдиха отново като ядро на изкуствения интелект.
Днес OpenAI обявиха преглед на своя модел o3, което е по-нататъшно развитие на неотдавнашния напредък в обучението на езикови модели за използване на o1 за разсъждения. Тези модели ще започнат с o3-mini и се очаква да бъдат достъпни за обществеността до края на януари 2025 г. В края на 2024 г. много наблюдатели смятат, че тази година е година на консолидация на изкуствения интелект, като много участници вече са достигнали нива, сравними с GPT-4, и започват да проучват как да прилагат тези модели на практика.
2024 г. не донесе момент, толкова вълнуващ, колкото „пускането на GPT-4“. Появата на o3 променя това, тъй като е по-неочаквано от o1 и бележи бърз напредък в моделите за разсъждения. Знаехме за идването на o1 отдавна, тъй като премина през дълъг подготвителен период – а бързото и ефективно пускане на o3 ни кара да очакваме с нетърпение развитието през 2025 г.
Въпреки че мнозина поставят под въпрос приложимостта на моделите от типа o1 извън областите на математиката, програмирането, физиката и твърдите науки, тези модели скоро ще бъдат широко използвани в цялата изследователска екосистема на изкуствения интелект, което значително ще ускори напредъка. Оптимистичен възглед е, че все още няма достатъчно време за проучване на употребите на тези модели, нито публично достъпни методи за обучение с подсилване за разширяване на моделите за разсъждения в други области.
O3 на OpenAI показва, че индустрията се изкачва на следващия връх, тъй като ползите от предварителното обучение, което разчита само на интернет текст, намаляват. O3 постигна значителен пробив в оценката на разсъжденията, по-конкретно в следните аспекти:
- Това е първият модел, който надхвърля 85% степен на завършеност в наградата ARC AGI (забележка: това е завършено върху публичен набор от данни, а не върху тестови набор, и надхвърля ограниченията на разходите).
- В изцяло новия тест Frontier Math, производителността скочи от 2% на 25%, което е качествен скок.
- Постигнати са значителни подобрения във всички водещи тестове за програмиране (като SWE-Bench-Verified).
И всичко това се случи само 3 месеца след обявяването на първата версия на модела. Тези промени скоро ще се проявят чрез ускоряване на напредъка в изследванията на изкуствения интелект. С намаляването на разходите за разсъждения това ще бъде още една стъпка към промяна на много софтуерни инженерни роли, каквито ги познаваме днес.
В същото време OpenAI публикуваха статия в блог и изследователска работа за внимателно подравняване, демонстрирайки как моделите от типа o1 могат да подобрят изследванията в областта на безопасността и подравняването. Това предоставя някои предварителни положителни доказателства за по-широк отворен въпрос, споменат по-рано: може ли подобрената способност за разсъждение да донесе стойност извън проверимите области? Този въпрос ще бъде преразгледан многократно през 2025 г.
Общ преглед на O3
Моделът o3 на OpenAI беше обявен в последния ден от „12-дневното събитие за пускане на OpenAI“. Това съобщение беше придружено от невероятните му постижения в надминаването на предишните най-съвременни модели (Gemini 1.5 Pro и Claude 3.5 Sonnet New) в множество области.
В статиите в блоговете и свързаните дискусии за моделите от серията o1, често пренебрегван детайл е значението на сенките в стълбовидните диаграми. В първата статия в блога за o1 това беше споменато в обяснението на първата графика с резултати: плътните стълбове представляват точността на pass@1, а засенчените области представляват производителността при използване на мнозинство (консенсус) от 64 проби.
Този детайл показва, че консенсусът от многократно генериране е от решаващо значение за оптималната производителност на моделите o1. Това е валидно за всички етапи на изчисление на разсъждения – не трябва да се разчита само на един изходен поток, за да се постигнат най-добри резултати. Това обаче не означава, че трябва да се използва дървовидно търсене или някакво междинно представяне. Професионалният режим на o1, както и резултатите от наградата ARC, които ще обсъдим, разчитат на това паралелно генериране, за да постигнат абсолютни максимални резултати.
За качествена оценка на теста Frontier Math можете да се обърнете към коментарите на двама носители на Филдсов медал. Техните коментари са насочени към най-трудните части от теста, но това добре илюстрира качествените му цели:
- "Тези задачи са изключително предизвикателни... Мисля, че те ще оставят AI безпомощен поне за следващите няколко години." – Терънс Тао, носител на Филдсов медал за 2006 г.
- "Проблемите, които виждам, не са в моята област на изследване и изглеждат напълно нерешими за мен... Изглежда, че са с едно ниво по-трудни от проблемите на IMO (Международна математическа олимпиада)." – Тимъти Гоуърс, носител на Филдсов медал за 2006 г.
Този тест беше въведен на 7 ноември и е посочен като един от малкото отворени граници в AI възможностите, които все още не са преодолени. Това пускане позиционира o3 на OpenAI като единствения модел, достигнал двуцифрен резултат, скачайки директно до 25%.
Вторият водещ резултат се появява в областта на програмирането. В предаване на живо OpenAI демонстрираха резултат от 71,7% на SWE-Bench Verified (което до известна степен е текущото най-съвременно ниво), както и общи резултати в Codeforces (сайт за състезания по програмиране).
O3 постигна резултат от 2727 чрез гласуване с консенсус при някаква непубликувана стойност на N, достигайки ниво на международен гросмайстор, класирайки се сред първите 200 състезателни програмисти в света. O3-mini се представя по-добре от o1, като същевременно намалява значително разходите. Като се има предвид тенденцията, която наблюдавахме през 2024 г., това може да се превърне в по-влиятелен модел, използван от по-широка потребителска база. Това направи възможно окончателното пробивно постижение в предаването на живо на o3 – ефективно решаване на предизвикателството ARC AGI.
Справяне с оценката ARC
Корпусът за абстракция и разсъждения (ARC) е метод за оценка на изкуствен интелект, предложен от Франсоа Шоле в неговата статия от 2019 г. „За мярката на интелигентността“. Оценката на ARC е предназначена да бъде по-близка до оценката на човешката интелигентност:
Предложихме ново формализирано определение за интелигентност, основано на алгоритмичната теория на информацията, описващо интелигентността като ефективност при придобиване на умения и подчертаващо концепциите за обхват, трудност на обобщаване, априорно знание и опит. Въз основа на това определение, ние предложихме набор от насоки за проектиране на общ еталон за изкуствен интелект. И накрая, ние представихме еталон, който стриктно следва тези насоки - Корпус за абстракция и разсъждения (ARC), който е изграден въз основа на набор от ясни априорни знания, възможно най-близки до вродените априорни знания на хората. Вярваме, че ARC може да се използва за измерване на обща подвижна интелигентност, подобна на човешката, и да позволи справедливо сравнение на общата интелигентност между системите с изкуствен интелект и хората.
Наградата ARC AGI беше стартирана през юни 2024 г. с награда от 1 милион долара за първото решение, което отговаря на определени критерии и решава набор от частни ARC задачи. Прагът за считане на задачата за „решена“ е постигане на точност от 85%. Днес OpenAI и ARC Prize споделиха следните резултати:
Обърнете внимание на оста x на цената, ще се върнем към тази тема по-късно.
Преди моделите от типа o1, най-добрият модел на OpenAI, GPT-4o, постигна само 5% точност. Бързият напредък на OpenAI в новите модели за разсъждения е обобщен от съоснователя на наградата ARC, Майк Кнуп, както следва:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 high (2024): 32%
- o1 Pro (2024): приблизително 50%
- o3 tuned low (2024): 76%
- o3 tuned high (2024): 87%
Още през юни тази година беше широко разпространено мнението, че решаването на ARC-AGI ще бъде изключително трудно. Само няколко месеца по-късно обаче това разбиране беше напълно разбито. Дори хората, които бяха оптимисти за Q* и други методи за разсъждение, не очакваха да постигнат толкова голям успех.
Шоле сподели повече подробности на официалния уебсайт на наградата ARC:
Тествахме o3 с два набора от данни ARC-AGI:
- Получастна оценка: 100 частни задачи за оценка на свръхобучението
- Публична оценка: 400 публични задачи Под ръководството на OpenAI, ние проведохме тестове при две нива на изчисление, с променливи размери на извадки: 6 (ефективен режим) и 1024 (неефективен режим, 172 пъти повече изчисления от предишния).
Ето резултатите от теста:
Забележка: Конкретните данни за високите изчислителни разходи на o3 не са публикувани, тъй като ценообразуването и наличността на функциите все още предстои да бъдат определени. Изчислителната мощност е приблизително 172 пъти по-голяма от тази на конфигурацията с ниски изчисления.
Например, ето един нерешен проблем:
Много проблеми са много интуитивни за хората. За да въведем тези проблеми в модела, цветовете са кодирани като числа и се въвеждат като контекст под формата на мрежа, както подчертава Грег Камрадт:
Технически погледнато, наградата все още не е взета, тъй като цената на решението надхвърля прага и не е с отворен код. Състезанието продължава. В рамките на няколко години този тип интелигентност ще стане почти безплатна. Безплатно означава, че разходите за извършване на разсъждения ще бъдат по-ниски от паричната стойност на потребителските рекламни данни.
В момента цената на o3, цитирана в блога на наградата ARC (която беше променена на относителна цена спрямо o1 в комуникацията на OpenAI), разкрива много подробности за техническата работа на o3.
Архитектура, разходи и обучение на O3
Екипът на ARC AGI работи директно с OpenAI, за да получи оценки за цените на техния модел. Крайната цена на o3, след като бъде официално пуснат в API, вероятно ще бъде различна. Въз основа на значението на закона за разширяване на разсъжденията, екипът на ARC-AGI добави допълнително изискване за подаване на решения за поверителна оценка. В своята статия в блога екипът записа общата цена и цената на задача, като прокси показател за FLOP или директно изчисление на използването на изчислителни ресурси.
Това е в съответствие с правило в съобщението за наградата ARC за публичната класация (което не е свързано с наградата от 1 милион долара):
10 000 USD е горната граница на разходите за работа, които могат да бъдат изразходвани за решаване на 500 задачи (включително 400 задачи в публичния набор за оценка и 100 задачи в нов получастен набор за оценка), което включва разходите за извикване на търговски API.
Разходите за o3 далеч надхвърлят този лимит при 500 задачи в публичния или полупубличния набор за оценка. Наградата ARC показва, че цената на заявка за o3 е далеч над 1000 долара. Те също така направиха предположения за естеството на модела. Следното има за цел да успокои спекулациите относно това дали o3 използва техника за обучение, различна от o1. По-конкретно, Шоле ясно заяви, че спекулира:
В момента можем само да спекулираме за това как точно работи o3. Основният механизъм на o3 обаче изглежда е търсене и изпълнение на програми на естествен език в токеновото пространство – по време на тестване моделът търси пространство от възможни вериги на мисли (CoTs), които описват стъпките, необходими за решаване на задачата, по начин, който може да е малко подобен на търсенето на Монте Карло дърво в стил AlphaZero. В случая с o3 търсенето може да бъде водено от някакъв модел за оценка.
Отново трябва да се подчертае, че препратките и предположенията за MCTS (търсене на Монте Карло дърво) са подвеждащи, но са разбираеми, тъй като много умни хора бяха шокирани от способността на o1 и o3 да постигат това само чрез едно пренасочване на езиков модел.
Наскоро написах статия, в която обясних как това се постига чрез мащабно обучение с подсилване и защо някои от графиките на OpenAI са подвеждащи относно изчислителните разходи на етапа на разсъждение. Служители на OpenAI също подчертаха същността на o3 като "просто модел, обучен чрез обучение с подсилване".
Въпреки това, ние все още анализираме въз основа на разходите, регистрирани от екипа на ARC, в комбинация с ценообразуването на OpenAI за o1 (5000 на заявка. Разделянето на общите разходи на цена на токен дава резултат, че моделът генерира 80 милиона токена на отговор, което е невъзможно без огромно подобрение на моделите с дълъг контекст. Следователно се появяват спекулации за различни архитектури за търсене.
Ключови са някои подробности в статията в блога на наградата ARC, където се споменава:
Под ръководството на OpenAI, ние проведохме тестове при две нива на изчисление, с променливи размери на извадки: 6 (ефективен режим) и 1024 (неефективен режим, 172 пъти повече изчисления от предишния).
Според SemiAnalysis, o1 pro използва метод за самосъгласуване или обикновена проверка consensus@N, за да подобри производителността, като избере най-честия отговор от множество паралелни отговори на една и съща заявка. Тук размерът на пробата N може да съответства на стойността на consensus@N, което показва, че конфигурацията за оценка на o3 е близка до тази на o1 pro, която клиентите могат да използват, т.е. 6 пъти повече изчисления и супер висока конфигурация от 1024 пъти повече изчисления на проблем.
Този мащаб на разсъждения няма да бъде достъпен за обикновените платени потребители дълго време. Повечето потребители ще имат достъп само до резултати от еднократно генериране до consensus@10, в зависимост от спецификациите на „професионалната“ версия на модела o1.
Ако приемем, че цената на милион изходни токена остава $60, разделянето на това на 1024 потока означава, че моделът генерира около 78 000 токена на отговор. В действителност изглежда, че o3 се възползва и от по-голям базов модел, тъй като от цялата логаритмична ос x на изчислителната мощност, която OpenAI показа на живо, изчислителните разходи за o1 се увеличиха значително. С по-голям базов модел тези цифри са напълно разумни и не предполагат добавянето на допълнителен елемент за "търсене".
Основната история, която движи напредъка на дълбокото обучение през последните години, е да се намери потенциално богата област и да се изкачваме непрекъснато върху нея. Първата вълна от напредък дойде от предварително обучение в интернет мащаб. Сега OpenAI откриха нова посока за изкачване чрез разширяване на обучението с подсилване и дълги контекстни разсъждения. Като се има предвид, че o3 е само на около три месеца от пускането на o1 от OpenAI, най-простото обяснение е, че използва същата архитектура и методи за обучение, само в по-голям мащаб.
Няма доказателства, че o3 е променил архитектурата на разсъжденията чрез добавяне на дървовидно търсене, всички твърдения са само слухове. Основното правило на закона за разширяване на разсъжденията е, че вземането на повече проби от едно и също еднопоточно генериране може да доведе до подобрение на производителността.
Ключовият въпрос е дали базовият модел на o3 е Orion (вътрешно кодово име на OpenAI, вероятно GPT-5), или новият базов модел се възползва само от Orion по време на обучението. Ако размерът на базовия модел се е увеличил от 2 до 5 пъти, тогава тези данни са напълно в съответствие с цените на API, отчетени от наградата ARC.
Все още има несигурност относно конкретните подробности за o3. В графиките, публикувани от екипа на ARC, до модела o3 има надпис „(tuned)“, но все още няма подробна информация за o3. Въпреки това, когато се съсредоточим върху тенденцията на напредък, е ясно, че моделите от ниво o1 ще съществуват дълго време.
И накрая, за да останем скромни, ето пример за награда ARC, която o3 не успя да реши. Тя е много проста.
Очевидно имаме още дълъг път да извървим, но трябва да сте развълнувани и да очаквате реалността тези модели да бъдат широко използвани да дойде по-рано от очакваното от повечето хора. Най-безопасно е да приемем, че AI ще продължи да се подобрява.
2024: Завръщането на RL
По-рано днес Anthropic пуснаха видеоклип на тема създаването на Anthropic, с участието на няколко съоснователи. Една неочаквана подробност беше споделена от съоснователя и главен изпълнителен директор Дарио Амодей:
"...цялата причина за разширяването на тези модели е, че тяхната интелигентност все още не е достатъчна, за да можем да извършваме RLHF (обучение с подсилване с обратна връзка от хора) на тяхна основа."
Като един от основателите на съвременната концепция за RLHF, Дарио вероятно вече е интуитивно усетил, че всички постижения в техниките за фина настройка предстоят. Тази визия за потенциала на RLHF е по-широка и по-задълбочена от тази на повечето практикуващи.
Тази година, без съмнение, е годината, в която обучението с подсилване (RL) и свързаните с него методи се утвърдиха отново като ядро на изкуствения интелект.
Процесът на писане на тази статия ме убеди, че трябва да обучим подобен езиков модел, базиран на разсъждения, през 2025 г. Усещането е, че за технологичните компании през 2024 г. стандартното предварително обучение се е превърнало в основно изискване за индустрията. Може да се предвиди, че модели, подобни на o1, ще бъдат инструмент по подразбиране в инструментариума на изкуствения интелект за дълго време напред. Много се радвам да прегърна тази нова световна перспектива и лично да науча как работят тези модели при обучението.