o1 не чат-модель а генератор отчетов

o1: Не типичная чат-модель

В статье обсуждается недавний ажиотаж вокруг модели o1, поясняя, что она не предназначена для работы в качестве чат-модели, несмотря на то, что многие пользователи изначально воспринимали ее именно так. Это открытие произошло после того, как публикация в блоге под названием "o1 не является чат-моделью (и в этом суть)" привлекла внимание, даже попав в поле зрения генерального директора OpenAI Сэма Альтмана и президента Грега Брокмана.

Заблуждения и разочарования

Бен Хилак, ранее работавший инженером-программистом в SpaceX и дизайнером взаимодействия для Apple VisionOS, поделился своим разочарованием от работы с o1. Он обнаружил, что ее ответы медленные, часто противоречивые и полны нежелательных архитектурных диаграмм и списков плюсов и минусов. Первоначальная реакция Хилака была такова, что o1 - это просто "мусор".

Хилак ждал ответов по 5 минут.
Ответы часто были противоречивыми и бессмысленными.
Модель предоставляла незапрошенные диаграммы и списки.

Его разочарование вылилось в публикации в социальных сетях, где он выразил свое недовольство, заявив, что o1 pro "действительно плоха", а ее результат "почти бессвязный". Он привел пример запроса совета по рефакторингу, на который модель предложила объединить файлы, предоставила код, который не объединял файлы, а затем перешла к несвязанным выводам.

Изменение перспективы

Опыт Хилака не был универсальным. Некоторые пользователи сочли o1 весьма эффективной, что привело к дальнейшим дискуссиям. В ходе этих взаимодействий Хилак осознал свою ошибку: он использовал o1 как чат-модель, хотя она не предназначена для такой функции.

Этот сдвиг в перспективе был приветствован Альтманом, который отметил, что "интересно наблюдать, как меняется отношение людей по мере того, как они учатся использовать o1 (включая pro-версию)". Грег Брокман поддержал это, указав, что o1 - это модель другого типа и требует иного подхода для оптимальной производительности.

o1: Генератор отчетов

В статье предлагается рассматривать o1 не как чат-модель, а как "генератор отчетов". При наличии достаточного контекста и четких требований к выводу o1 может эффективно предоставлять решения. Ключевым моментом является то, как используется модель.

От запросов к брифам

При использовании типичных чат-моделей пользователи часто начинают с простых вопросов и добавляют контекст по мере необходимости, вступая в итеративное взаимодействие. Однако o1 не ищет дополнительный контекст. Вместо этого пользователи должны предоставить много контекста заранее, описанного как "тонна" информации, или примерно в десять раз больше контекста, чем вы использовали бы для стандартного запроса.

Предоставьте все детали предпринятых решений.
Включите полные дампы схемы базы данных.
Объясните специфику бизнеса компании, масштабы и терминологию.

Рекомендуется относиться к o1 как к новому сотруднику, предоставляя всю необходимую информацию с самого начала.

Сосредоточьтесь на желаемом результате

После предоставления обширного контекста пользователи должны четко определить желаемый результат. В отличие от других моделей, где пользователи могут указывать персону или мыслительный процесс, с o1 вы должны сосредоточиться исключительно на том, "что" вы хотите, а не на том, "как" модель должна это делать. Это позволяет o1 самостоятельно планировать и выполнять необходимые шаги, что приводит к более быстрым и эффективным результатам.

Сильные и слабые стороны o1

o1 превосходно справляется в нескольких областях:

Обработка целых файлов: Она может обрабатывать большие блоки кода и обширный контекст, часто заполняя целые файлы с минимальными ошибками.
Уменьшение галлюцинаций: o1 точна в таких областях, как пользовательские языки запросов (например, ClickHouse и New Relic), в то время как другие модели могут путать синтаксис.
Медицинская диагностика: o1 может предлагать на удивление точные предварительные диагнозы на основе изображений и описаний.
Объяснение концепций: Она умеет объяснять сложные инженерные концепции на примерах.
Генерация архитектурных планов: o1 может создавать несколько планов, сравнивать их и составлять списки плюсов и минусов.
Оценка: Она показывает себя как эффективный инструмент для оценки результатов.

Однако у o1 есть и ограничения:

Написание в определенных стилях: Она склонна создавать отчеты в академическом или корпоративном стиле и с трудом адаптируется к определенным тонам.
Создание целых приложений: Хотя она умеет создавать целые файлы, она не может построить полноценное SaaS-приложение путем итерации. Однако она может выполнять целые функции, особенно интерфейсные или простые серверные функции.

Важность задержки

В статье отмечается, что задержка фундаментально меняет наше восприятие продуктов, приводя в пример электронную почту и текстовые сообщения, а также голосовые сообщения и телефонные звонки.

Хилак сравнивает o1 с электронной почтой, а не с чат-моделью, из-за задержки в ее ответах. Эта задержка позволяет создавать новые типы продуктов, которые выигрывают от высокой задержки и длительной фоновой обработки. Тогда возникает вопрос: какие задачи люди готовы ждать 5 минут, час, день или даже 3-5 рабочих дней?

Важно отметить, что o1-preview и o1-mini поддерживают потоковую передачу, но не структурированное создание или системные подсказки, в то время как o1 поддерживает структурированное создание и системные подсказки, но не потоковую передачу. Понимание этих различий будет иметь решающее значение для разработчиков при проектировании продуктов в 2025 году.