o1 не е чат модел Altman Brockman наблюдават

o1: Не е типичен чат модел

Статията обсъжда скорошния шум около модела o1, като изяснява, че той не е проектиран като чат модел, въпреки че много потребители първоначално са го третирали като такъв. Това разкритие дойде след публикация в блог, озаглавена "o1 не е чат модел (и това е смисълът)", която набра популярност, дори привличайки вниманието на изпълнителния директор на OpenAI Сам Алтман и президента Грег Брокман.

Недоразумения и разочарования

Бен Хилак, бивш софтуерен инженер в SpaceX и дизайнер на взаимодействие за Apple VisionOS, сподели разочароващото си преживяване с o1. Той установи, че отговорите му са бавни, често противоречиви и изпълнени с нежелани архитектурни диаграми и списъци с плюсове и минуси. Първоначалната реакция на Хилак беше, че o1 е просто "боклук".

Хилак е преживял 5-минутни изчаквания за отговори.
Отговорите често бяха самопротиворечиви и безсмислени.
Моделът предоставяше неискани диаграми и списъци.

Неговата фрустрация доведе до публикации в социалните медии, изразяващи разочарованието му, като заяви, че o1 pro е "наистина лош", а резултатът му е "почти безсмислен". Той даде пример с искане за съвет за префакториране, само за да може моделът да предложи сливане на файлове, да предостави код, който не слива файлове, и след това да премине към несвързани заключения.

Промяна в перспективата

Опитът на Хилак не беше универсален. Някои потребители намериха o1 за много ефективен, което доведе до по-нататъшни дискусии. Чрез тези взаимодействия Хилак осъзна грешката си: той използваше o1 като чат модел, когато той не беше предназначен да функционира като такъв.

Тази промяна в перспективата беше приветствана от Алтман, който отбеляза, че е "интересно да се наблюдава как се променят нагласите на хората, когато научат как да използват o1 (включително pro версията)". Грег Брокман повтори това, като посочи, че o1 е различен вид модел и изисква различен подход за оптимална производителност.

o1: Генератор на отчети

Статията предполага, че вместо чат модел, o1 трябва да се разглежда като "генератор на отчети". Като се има предвид достатъчно контекст и ясни изисквания за изход, o1 може да предостави решения ефективно. Ключът е в това как се използва моделът.

От подкани до кратки инструкции

Когато използват типични чат модели, потребителите често започват с прости въпроси и добавят контекст според нуждите, като се ангажират с итеративни взаимодействия напред-назад. Въпреки това, o1 не търси допълнителен контекст. Вместо това потребителите трябва да предоставят много контекст предварително, описан като "тон" информация, или около десет пъти контекста, който бихте използвали за стандартна подкана.

Предоставете всички подробности за направените опити за решения.
Включете пълни извлечения от схемата на базата данни.
Обяснете специфичния за компанията бизнес, мащаб и терминология.

Препоръчително е да се отнасяте към o1 като към нов служител, предоставяйки цялата необходима информация от самото начало.

Фокус върху желания изход

След предоставяне на обширен контекст, потребителите трябва ясно да дефинират желания изход. За разлика от други модели, където потребителите могат да посочат персонажа или мисловния процес, с o1 трябва да се съсредоточите единствено върху "какво" искате, а не "как" моделът трябва да го направи. Това позволява на o1 независимо да планира и изпълнява необходимите стъпки, което води до по-бързи и по-ефективни резултати.

Силни и слаби страни на o1

o1 се отличава в няколко области:

Обработка на цели файлове: Той може да обработва големи кодови блокове и обширен контекст, често завършвайки цели файлове с минимални грешки.
Намаляване на халюцинациите: o1 е точен в области като езици за персонализирани заявки (напр. ClickHouse и New Relic), докато други модели могат да объркат синтаксиса.
Медицинска диагностика: o1 може да предложи изненадващо точни предварителни диагнози въз основа на изображения и описания.
Обясняване на концепции: Той е умел в обясняването на сложни инженерни концепции чрез примери.
Генериране на архитектурни планове: o1 може да създаде множество планове, да ги сравни и да изброи плюсовете и минусите.
Оценка: Той показва обещание като ефективен инструмент за оценка на резултатите.

Въпреки това, o1 има и ограничения:

Писане в специфични стилове: Той има тенденция да произвежда отчети в академичен или корпоративен стил и се бори с адаптирането към специфични тонове.
Изграждане на цели приложения: Въпреки че е умел в генерирането на цели файлове, той не може да изгради пълно SaaS приложение чрез итерация. Въпреки това, той може да завърши цели функции, особено front-end или прости back-end функционалности.

Значението на забавянето

Статията отбелязва, че забавянето фундаментално променя нашето възприятие за продуктите, като цитира примери като имейл срещу текстови съобщения и гласови съобщения срещу телефонни разговори. Хилак сравнява o1 с имейл, а не с чат модел, поради забавянето в отговорите му. Това забавяне позволява нови видове продукти, които се възползват от висока латентност и дългосрочна фонова интелигентност. Въпросът тогава става: какви задачи са хората готови да чакат 5 минути, час, ден или дори 3-5 работни дни?

Важно е да се отбележи, че o1-preview и o1-mini поддържат стрийминг, но не и структурирано генериране или системни подкани, докато o1 поддържа структурирано генериране и системни подкани, но не и стрийминг. Разбирането на тези разлики ще бъде от решаващо значение за разработчиците при проектирането на продукти през 2025 г.