Published on

OpenAI O3: Прорыв в Рассуждениях и ARC AGI

Авторы
  • avatar
    Имя
    Ajax
    Twitter

Основные моменты

  • Множественное генерирование консенсуса: Для оптимальной производительности модели o1 критически важно использовать консенсус, полученный на основе множества генераций. Это относится ко всем этапам вычислений при рассуждении. Для достижения лучших результатов нельзя полагаться только на один поток вывода.
  • Отсутствие изменений в архитектуре: Нет никаких доказательств того, что модель o3 внесла изменения в архитектуру рассуждений путем добавления древовидного поиска. Все утверждения об этом – это лишь слухи. Основным правилом закона масштабирования рассуждений является то, что выборка большего количества контента из одного и того же однопоточного генерирования может привести к повышению производительности.
  • Возвращение к основам: Этот год, несомненно, является годом, когда обучение с подкреплением (RL) и связанные с ним методы вновь утвердились в качестве ядра искусственного интеллекта.
  • Предварительный просмотр o3: Сегодня OpenAI объявила о предварительном просмотре своей модели o3, которая развивает недавние достижения в обучении языковых моделей для рассуждений с использованием o1. Эти модели начнутся с o3-mini и, как ожидается, будут доступны для широкой публики к концу января 2025 года. На пороге 2024 года многие наблюдатели считают этот год годом консолидации искусственного интеллекта, когда многие участники достигли уровня, сопоставимого с GPT-4, и начали изучать, как можно практически применять эти модели.
  • Прорыв o3: 2024 год не принес таких волнующих моментов, как «запуск GPT-4». Появление o3 меняет это, поскольку оно более неожиданно, чем o1, и знаменует собой быстрый прогресс в моделях рассуждений. Мы давно знали о появлении o1, поскольку оно прошло длительный период подготовки, в то время как быстрый и эффективный запуск o3 вселяет в нас большие надежды на развитие в 2025 году.
  • Расширение применения: Хотя многие сомневаются в применимости моделей типа o1 за пределами математики, программирования, физики и точных наук, эти модели в скором времени будут широко использоваться во всей экосистеме исследований в области искусственного интеллекта, что значительно ускорит прогресс. Оптимистическая точка зрения заключается в том, что пока недостаточно времени для изучения возможностей этих моделей, а также нет общедоступных методов обучения с подкреплением для расширения моделей рассуждений на другие области.
  • Новый уровень: OpenAI o3 показывает, что отрасль поднимается на следующую вершину, поскольку выгоды от предварительного обучения, основанного исключительно на интернет-текстах, снижаются. o3 совершила значительный прорыв в оценках рассуждений, что выражается в нескольких аспектах:
    • Это первая модель, которая превысила 85% выполнения задач в премии ARC AGI (примечание: это выполнение на общедоступном наборе данных, а не на тестовом наборе, и превышает ограничения по стоимости).
    • На совершенно новом эталонном тесте Frontier Math производительность подскочила с 2% до 25%, что стало качественным скачком.
    • Значительные улучшения были достигнуты во всех ведущих эталонных тестах программирования, таких как SWE-Bench-Verified.
    • И все это всего лишь через 3 месяца после анонса первой версии модели.
  • Ускорение исследований: Эти изменения в скором времени проявятся через ускорение прогресса исследований в области искусственного интеллекта. По мере снижения стоимости рассуждений это станет еще одним шагом к изменению многих ролей в разработке программного обеспечения, какими мы их знаем сегодня.
  • Согласование и безопасность: В то же время OpenAI опубликовала сообщение в блоге и исследовательскую статью о взвешенном согласовании, показывающую, как модели уровня o1 могут повысить безопасность и исследования согласования. Это обеспечивает некоторые предварительные положительные свидетельства по ранее упомянутому более широкому открытому вопросу: может ли расширенная способность к рассуждению принести ценность за пределами проверяемых областей? Этот вопрос будет неоднократно пересмотрен в 2025 году.

Обзор O3

Модель o3 от OpenAI была анонсирована в последний день «12-дневного мероприятия OpenAI». Этот релиз сопровождался поразительными результатами, превосходящими самые современные модели (Gemini 1.5 Pro и Claude 3.5 Sonnet New) в нескольких областях.

В сообщениях в блоге и соответствующих обсуждениях о моделях серии o1 часто упускается из виду одна деталь – значение затенения на гистограммах. В первом сообщении в блоге o1 на это указывалось в описании первой результирующей диаграммы: сплошные столбцы представляют точность pass@1, а затененные области – производительность при использовании 64 выборок для голосования по большинству (консенсуса).

Эта деталь показывает, что консенсус, полученный на основе множества генераций, имеет решающее значение для оптимальной производительности моделей o1. Это относится ко всем этапам вычислений при рассуждении – для достижения наилучших результатов нельзя полагаться только на один поток вывода. Однако это не означает, что необходимо использовать древовидный поиск или какое-либо промежуточное представление. Профессиональный режим o1, а также результаты ARC, которые мы обсудим, полагаются на такое параллельное генерирование для достижения абсолютно максимальных баллов.

Frontier Math

Качественную оценку эталонного теста Frontier Math можно увидеть в комментариях двух лауреатов премии Филдса. Их комментарии касаются самых сложных частей эталонного теста, но они хорошо отражают его качественные цели:

«Эти задачи чрезвычайно сложны… Я думаю, что они как минимум на несколько лет поставят ИИ в тупик». – Теренс Тао, лауреат премии Филдса 2006 года

«Проблемы, которые я вижу, не относятся к моей области исследований и кажутся совершенно неразрешимыми для меня… Они, похоже, на уровень сложнее, чем задачи IMO (Международной математической олимпиады)». – Тимоти Говерс, лауреат премии Филдса 2006 года

Этот эталонный тест был введен 7 ноября и был назван одним из немногих открытых рубежей в возможностях ИИ, которые еще предстоит покорить. Этот релиз позиционирует o3 от OpenAI как единственную модель, достигшую двузначных баллов, и напрямую перескакивает до 25%.

Программирование

Второй лидирующий результат был получен в области программирования. В прямом эфире OpenAI продемонстрировала оценку 71,7% в SWE-Bench Verified (этот показатель в определенной степени является самым современным на данный момент), а также широкие результаты на Codeforces (сайте соревнований по программированию).

o3 набрала 2727 баллов в голосовании по консенсусу при некотором нераскрытом значении N, достигнув уровня международного гроссмейстера и заняв примерно 200-е место среди программистов-конкурсантов в мире. o3-mini превосходит o1 по производительности, при этом стоимость значительно снижена. Учитывая тенденции, которые мы наблюдали в 2024 году, это может стать более влиятельной моделью для более широкой группы пользователей. Это делает возможным окончательный прорыв в прямом эфире o3 – эффективное решение задачи ARC AGI.

Решение ARC

Корпус абстракций и рассуждений (ARC) — это метод оценки искусственного интеллекта, предложенный Франсуа Шолле в его статье 2019 года «Об измерении интеллекта». Оценка ARC предназначена для более точной оценки человеческого интеллекта:

Мы предложили новое формальное определение интеллекта, основанное на теории алгоритмической информации, описывающее интеллект как эффективность приобретения навыков и подчеркивающее понятия объема, трудности обобщения, априорных знаний и опыта. На основе этого определения мы предложили набор руководящих принципов для разработки общего эталона искусственного интеллекта. Наконец, мы представили эталон, который строго следует этим принципам – Корпус абстракций и рассуждений (ARC), который построен на основе набора четких априорных знаний, максимально приближенных к врожденным априорным знаниям человека. Мы считаем, что ARC можно использовать для измерения похожего на человеческий общего текучего интеллекта и что он обеспечивает справедливое общее сравнение интеллекта между системами искусственного интеллекта и людьми.

Премия ARC AGI была запущена в июне 2024 года с призовым фондом в 1 миллион долларов, который будет присужден первому решению, которое отвечает определенным критериям и решает набор частных задач ARC. Порогом, который считается «решением» задачи, является достижение 85% точности. Сегодня OpenAI и ARC Prize поделились следующими результатами:

  • Обратите внимание на ось x с ценами, мы вернемся к этому позже.

До моделей класса o1 лучшая модель OpenAI GPT-4o достигла точности всего 5%. Быстрый прогресс OpenAI в ее новых моделях рассуждений обобщил соучредитель премии ARC Майк Кнуп:

  • GPT-2 (2019): 0%
  • GPT-3 (2020): 0%
  • GPT-4 (2023): 2%
  • GPT-4o (2024): 5%
  • o1-preview (2024): 21%
  • o1 high (2024): 32%
  • o1 Pro (2024): около 50%
  • o3 tuned low (2024): 76%
  • o3 tuned high (2024): 87%

Еще в июне этого года считалось, что решение ARC-AGI будет чрезвычайно сложным. Однако всего через несколько месяцев это восприятие было полностью опровергнуто. Даже те, кто с оптимизмом относился к Q* и другим методам рассуждения, не ожидали такого успеха.

Шолле поделился более подробной информацией на официальном сайте премии ARC:

Мы протестировали o3 на двух наборах данных ARC-AGI:

  • Полузакрытая оценка: 100 закрытых задач для оценки переобучения
  • Открытая оценка: 400 открытых задач

Под руководством OpenAI мы провели тестирование на двух уровнях вычислений с переменным размером выборки: 6 (эффективный режим) и 1024 (неэффективный режим, в 172 раза больше вычислений, чем первый).

Вот результаты тестирования:

Примечание: Конкретные данные о высокой стоимости вычислений o3 еще не опубликованы, поскольку цены и доступность функций еще не определены. Объем вычислений примерно в 172 раза больше, чем при низкой конфигурации вычислений.

Например, вот одна нерешенная проблема:

Многие проблемы очень интуитивно понятны для человека. Чтобы ввести эти проблемы в модель, цвета кодируются как числа и вводятся в виде сетки в качестве контекста, как подчеркнул Грег Камрадт:

Технически премия еще не получена, поскольку стоимость решения превышает пороговое значение и не является открытым исходным кодом. Гонка продолжается. Через несколько лет этот тип интеллекта станет практически бесплатным. Бесплатно, подразумевается, что стоимость выполнения рассуждений будет ниже денежной стоимости пользовательских рекламных данных.

Архитектура, стоимость и обучение O3

В настоящее время цены o3, указанные в блоге ARC Prize (измененные в общении с OpenAI на относительные цены по отношению к o1), раскрывают многие детали о технической работе o3.

Команда ARC AGI напрямую сотрудничала с OpenAI, чтобы получить оценки стоимости модели. Окончательные цены o3 после ее официального запуска в API, скорее всего, будут отличаться. Исходя из важности закона масштабирования рассуждений, команда ARC-AGI добавила дополнительное требование для подачи решений для частной оценки. В своем сообщении в блоге команда зафиксировала общую стоимость и стоимость каждой задачи в качестве прокси-показателя FLOP или прямого расчета использования вычислительных ресурсов.

Это соответствует правилу в объявлении о премии ARC для публичного рейтинга (которое не связано с призом в 1 миллион долларов):

10 000 долларов США — это максимальная стоимость запуска, которую можно потратить на решение 500 задач (включая 400 задач из общедоступного набора оценок и 100 задач из нового полузакрытого набора оценок), включая стоимость вызова коммерческого API.

Стоимость o3 значительно превышает этот предел при выполнении 500 задач в общедоступном или полузакрытом наборе оценок. Премия ARC показывает, что стоимость каждого запроса o3 значительно превышает 1000 долларов США. Они также сделали предположения о природе модели. Нижеследующее призвано успокоить спекуляции о том, использует ли o3 методы обучения, отличные от o1. В частности, Шолле явно заявил, что он строит предположения:

В настоящее время мы можем только спекулировать о том, как именно работает o3. Но основным механизмом o3, по-видимому, является поиск и выполнение программ на естественном языке в пространстве токенов – во время тестирования модель ищет пространство возможных цепочек мыслей (CoTs), которые описывают шаги, необходимые для решения задачи, способом, который может быть несколько похож на поиск по дереву Монте-Карло в стиле AlphaZero. В случае o3 поиск может направляться некоторой моделью оценки.

Еще раз подчеркнем, что ссылки и предположения о MCTS (поиске по дереву Монте-Карло) вводят в заблуждение, но их можно понять, поскольку многие умные люди были поражены способностью o1 и o3 достигаться только путем прямого прохода через единую языковую модель.

В своей недавней статье я объяснил, как это достигается за счет крупномасштабного обучения с подкреплением, и показал, почему некоторые графики OpenAI вводят в заблуждение относительно вычислительных затрат на этапе рассуждений. Сотрудники OpenAI также подчеркнули, что o3 «это всего лишь модель, обученная с помощью обучения с подкреплением».

Тем не менее, мы проанализировали стоимость, зафиксированную командой ARC, в сочетании с ценами OpenAI на o1 (60,00 долл. США за миллион выходных токенов). Согласно графикам результатов ARC, стоимость каждого запроса полной версии o3 составляет около 5000 долларов США. Разделив общую стоимость на цену за токен, мы получаем результат, что модель сгенерировала 80 миллионов токенов за каждый ответ, что невозможно без значительных улучшений в моделях длинного контекста. Отсюда и спекуляции о различных архитектурах поиска.

Ключевым моментом являются некоторые детали в сообщении в блоге премии ARC, где упоминается:

Под руководством OpenAI мы провели тестирование на двух уровнях вычислений с переменным размером выборки: 6 (эффективный режим) и 1024 (неэффективный режим, в 172 раза больше вычислений, чем первый).

По данным SemiAnalysis, o1 pro использует метод самосогласованности или простую проверку consensus@N, чтобы улучшить производительность, выбирая наиболее распространенный ответ из нескольких параллельных ответов на один и тот же запрос. Здесь размер выборки N может соответствовать значению consensus@N, что указывает на то, что конфигурация оценки o3 близка к конфигурации o1 pro, которую могут использовать клиенты, то есть 6-кратное вычисление, а также сверхвысокая конфигурация в 1024 раза больше вычислений на задачу.

Такой масштаб рассуждений еще долго не будет доступен для обычных платных пользователей. Большинство пользователей будут иметь дело только с одной генерацией до результата consensus@10, в зависимости от спецификаций «профессиональной» версии модели o1.

Если предположить, что цена за миллион выходных токенов по-прежнему составляет 60 долларов США, то деление на 1024 потока означает, что модель генерирует около 78 000 токенов за каждый ответ. На самом деле, o3, похоже, также выигрывает от более крупной базовой модели, поскольку, судя по логарифмическим осям вычислений x, показанным OpenAI в прямом эфире, стоимость вычислений o1 значительно увеличилась. Используя более крупную базовую модель, эти цифры вполне разумны и не подразумевают добавления дополнительных элементов «поиска».

Основная история, которая двигала прогресс глубокого обучения в последние годы, – это поиск потенциально богатой области и постоянное восхождение на нее. Первая волна прогресса пришлась на предварительное обучение в масштабах Интернета. Теперь OpenAI нашла новое направление для восхождения, расширив обучение с подкреплением и рассуждения в длинном контексте. Учитывая, что o3 была выпущена примерно через три месяца после выпуска o1 OpenAI, самым простым объяснением является то, что она использует ту же архитектуру и методы обучения, только в большем масштабе.

Нет никаких доказательств того, что o3 внесла изменения в архитектуру рассуждений путем добавления древовидного поиска, все утверждения об этом – это лишь слухи. Основным правилом закона масштабирования рассуждений является то, что выборка большего количества контента из одного и того же однопоточного генерирования может привести к повышению производительности.

Ключевой вопрос заключается в том, является ли базовая модель o3 Orion (внутреннее кодовое имя OpenAI, возможно, GPT-5) или новая базовая модель выигрывает от Orion только при обучении. Если размер базовой модели увеличился в 2-5 раз, то, судя по ценам API, сообщенным в премии ARC, эти данные полностью соответствуют ожиданиям.

Конкретные детали об o3 остаются неопределенными. На графиках, опубликованных командой ARC, рядом с моделью o3 указано «(tuned)», но подробной информации об o3 пока нет. Однако, когда мы смотрим на тенденции прогресса, становится очевидным, что модели уровня o1 будут существовать в долгосрочной перспективе.

Наконец, чтобы оставаться скромными, вот пример премии ARC, которую o3 не смогла решить. Это очень просто.

Нам явно предстоит пройти долгий путь, но вы должны быть в восторге и ожидать, что реальность широкого использования этих моделей наступит раньше, чем ожидает большинство людей. Самый безопасный вариант – предположить, что ИИ будет постоянно развиваться.

2024: Возвращение RL

Ранее сегодня Anthropic выпустила видео, посвященное процессу создания Anthropic, с участием нескольких соучредителей. Одна неожиданная деталь была сообщена соучредителем и генеральным директором Дарио Амодеи:

«…вся причина масштабирования этих моделей заключается в том, что их интеллекта все еще недостаточно, чтобы мы могли на их основе проводить RLHF (обучение с подкреплением с использованием обратной связи от человека)».

Будучи одним из основателей современной концепции RLHF, Дарио, вероятно, уже давно интуитивно понял, что все достижения в области технологий тонкой настройки вот-вот произойдут. Этот взгляд на потенциал RLHF шире и глубже, чем у большинства практикующих специалистов.

Этот год, несомненно, является годом, когда обучение с подкреплением (RL) и связанные с ним методы вновь утвердились в качестве ядра искусственного интеллекта.

Процесс написания этой статьи убедил меня в том, что в 2025 году нужно обучить аналогичную языковую модель на основе рассуждений. Это ощущение похоже на то, как в 2024 году для технологических компаний стандартное предварительное обучение стало основным требованием в отрасли. Можно предвидеть, что модели, подобные o1, в течение долгого времени будут стандартным инструментом в инструментарии искусственного интеллекта. Я очень жду возможности принять это новое мировоззрение и лично изучить принципы работы этих моделей обучения.