o1 nie jest modelem czatu Zmiana perspektywy po uwagach Altmana i Brockmana

o1: Nie Typowy Model Czatowy

Artykuł omawia ostatnie zamieszanie wokół modelu o1, wyjaśniając, że nie został on zaprojektowany jako model czatu, pomimo że wielu użytkowników początkowo go tak traktowało. To odkrycie nastąpiło po tym, jak wpis na blogu zatytułowany "o1 nie jest modelem czatu (i o to chodzi)" zyskał popularność, przyciągając nawet uwagę dyrektora generalnego OpenAI Sama Altmana i prezesa Grega Brockmana.

Nieporozumienia i Frustracje

Ben Hylak, były inżynier oprogramowania w SpaceX i projektant interakcji dla Apple VisionOS, podzielił się swoim frustrującym doświadczeniem z o1. Stwierdził, że jego odpowiedzi są powolne, często sprzeczne i wypełnione nieproszonymi diagramami architektury oraz listami zalet i wad. Początkowa reakcja Hylaka była taka, że o1 to po prostu "śmieć".

Hylak doświadczył 5-minutowego czasu oczekiwania na odpowiedzi.
Odpowiedzi były często sprzeczne i bezsensowne.
Model dostarczał nieproszone diagramy i listy.

Jego frustracja doprowadziła do postów w mediach społecznościowych wyrażających rozczarowanie, stwierdzając, że o1 pro jest "naprawdę zły", a jego wyniki to "prawie bełkot". Podał przykład zapytania o poradę dotyczącą refaktoryzacji, a model zaproponował scalanie plików, dostarczył kod, który nie scalał plików, a następnie przeszedł do niezwiązanych wniosków.

Zmiana Perspektywy

Doświadczenie Hylaka nie było uniwersalne. Niektórzy użytkownicy uznali o1 za wysoce skuteczny, co doprowadziło do dalszych dyskusji. Dzięki tym interakcjom Hylak zdał sobie sprawę ze swojego błędu: używał o1 jako modelu czatu, podczas gdy nie był on przeznaczony do takiej funkcji.

Tę zmianę perspektywy przyjął z zadowoleniem Altman, który zauważył, że "interesujące jest obserwowanie, jak zmieniają się postawy ludzi, gdy uczą się, jak korzystać z o1 (w tym wersji pro)". Greg Brockman powtórzył to, zwracając uwagę, że o1 jest innym rodzajem modelu i wymaga innego podejścia, aby osiągnąć optymalną wydajność.

o1: Generator Raportów

Artykuł sugeruje, że zamiast modelu czatu, o1 należy postrzegać jako "generator raportów". Przy wystarczającym kontekście i jasnych wymaganiach dotyczących wyjścia, o1 może skutecznie dostarczać rozwiązania. Kluczem jest sposób użycia modelu.

Od Promptów do Briefów

Podczas korzystania z typowych modeli czatu użytkownicy często zaczynają od prostych pytań i dodają kontekst w miarę potrzeb, angażując się w iteracyjne interakcje. Jednak o1 nie szuka dodatkowego kontekstu. Zamiast tego użytkownicy muszą dostarczyć dużo kontekstu z góry, określanego jako "tona" informacji, czyli około dziesięć razy więcej kontekstu niż w przypadku standardowego promptu.

Podaj wszystkie szczegóły podjętych prób rozwiązania.
Dołącz kompletne zrzuty schematów baz danych.
Wyjaśnij specyficzne dla firmy kwestie biznesowe, skalę i terminologię.

Zaleca się traktowanie o1 jak nowego pracownika, dostarczając od samego początku wszystkie niezbędne informacje.

Skupienie na Oczekiwanym Wyniku

Po dostarczeniu obszernego kontekstu użytkownicy muszą jasno określić oczekiwany wynik. W przeciwieństwie do innych modeli, w których użytkownicy mogą określić personę lub proces myślowy, w przypadku o1 należy skupić się wyłącznie na tym, "co" się chce, a nie na tym, "jak" model ma to zrobić. Pozwala to o1 niezależnie planować i wykonywać wymagane kroki, co prowadzi do szybszych i bardziej efektywnych rezultatów.

Mocne i Słabe Strony o1

o1 wyróżnia się w kilku obszarach:

Przetwarzanie całych plików: Może obsługiwać duże bloki kodu i rozległy kontekst, często uzupełniając całe pliki z minimalnymi błędami.
Redukcja halucynacji: o1 jest dokładny w obszarach takich jak niestandardowe języki zapytań (np. ClickHouse i New Relic), podczas gdy inne modele mogą mieszać składnię.
Diagnoza medyczna: o1 może oferować zaskakująco dokładne wstępne diagnozy na podstawie zdjęć i opisów.
Wyjaśnianie koncepcji: Jest biegły w wyjaśnianiu złożonych koncepcji inżynierskich za pomocą przykładów.
Generowanie planów architektonicznych: o1 może tworzyć wiele planów, porównywać je i wymieniać zalety i wady.
Ewaluacja: Wykazuje obiecujące wyniki jako skuteczne narzędzie do oceny wyników.

Jednak o1 ma również ograniczenia:

Pisanie w określonych stylach: Ma tendencję do tworzenia raportów w stylu akademickim lub korporacyjnym i ma trudności z dostosowaniem się do określonych tonów.
Budowanie całych aplikacji: Chociaż jest biegły w generowaniu całych plików, nie może budować pełnej aplikacji SaaS poprzez iterację. Może jednak ukończyć całe funkcje, szczególnie front-endowe lub proste back-endowe.

Znaczenie Opóźnienia

Artykuł zauważa, że opóźnienie zasadniczo zmienia nasze postrzeganie produktów, podając przykłady takie jak e-mail vs. wiadomości tekstowe i wiadomości głosowe vs. rozmowy telefoniczne. Hylak porównuje o1 do e-maila, a nie modelu czatu, ze względu na opóźnienie w jego odpowiedziach. To opóźnienie pozwala na tworzenie nowych rodzajów produktów, które korzystają z wysokiego opóźnienia, długotrwałej inteligencji w tle. Pytanie brzmi: na jakie zadania ludzie są skłonni czekać 5 minut, godzinę, dzień, a nawet 3-5 dni roboczych?

Ważne jest, aby zauważyć, że o1-preview i o1-mini obsługują strumieniowanie, ale nie strukturalne generowanie ani systemowe podpowiedzi, podczas gdy o1 obsługuje strukturalne generowanie i systemowe podpowiedzi, ale nie strumieniowanie. Zrozumienie tych różnic będzie kluczowe dla programistów podczas projektowania produktów w 2025 roku.