o1 is geen chatmodel maar een rapportgenerator

o1: Niet Je Typische Chatmodel

Het artikel bespreekt de recente buzz rond het o1 model, en verduidelijkt dat het niet ontworpen is als een chatmodel, ondanks dat veel gebruikers het aanvankelijk wel zo behandelden. Deze onthulling kwam na een blogpost getiteld "o1 is geen chatmodel (en dat is het punt)" die veel aandacht kreeg, zelfs van OpenAI CEO Sam Altman en President Greg Brockman.

Misvattingen en Frustraties

Ben Hylak, voorheen software engineer bij SpaceX en interaction designer voor Apple VisionOS, deelde zijn frustrerende ervaring met o1. Hij vond de reacties traag, vaak tegenstrijdig en gevuld met ongevraagde architectuurdiagrammen en lijsten met voor- en nadelen. Hylak's eerste reactie was dat o1 gewoon "afval" was.

Hylak ervoer wachttijden van 5 minuten voor reacties.
Reacties waren vaak zelf-tegenstrijdig en onzinnig.
Het model leverde ongevraagde diagrammen en lijsten.

Zijn frustratie leidde tot posts op sociale media waarin hij zijn teleurstelling uitte, en verklaarde dat o1 pro "echt slecht" was, en de output "bijna onzin". Hij gaf het voorbeeld van het vragen om refactoring advies, waarna het model voorstelde om bestanden samen te voegen, code leverde die geen bestanden samenvoegde en vervolgens naar ongerelateerde conclusies sprong.

Een Verschuiving in Perspectief

Hylak’s ervaring was niet universeel. Sommige gebruikers vonden o1 zeer effectief, wat leidde tot verdere discussies. Door deze interacties realiseerde Hylak zijn fout: hij gebruikte o1 als een chatmodel terwijl het niet bedoeld was om zo te functioneren.

Deze verschuiving in perspectief werd verwelkomd door Altman, die opmerkte dat het "interessant was om te zien hoe de houding van mensen veranderde naarmate ze leerden hoe ze o1 moesten gebruiken (inclusief de pro versie)." Greg Brockman herhaalde dit door erop te wijzen dat o1 een ander soort model is en een andere aanpak vereist voor optimale prestaties.

o1: Een Rapportgenerator

Het artikel suggereert dat in plaats van een chatmodel, o1 moet worden gezien als een "rapportgenerator". Gegeven voldoende context en duidelijke outputvereisten, kan o1 effectief oplossingen bieden. De sleutel ligt in hoe het model wordt gebruikt.

Van Prompts naar Briefs

Bij het gebruik van typische chatmodellen beginnen gebruikers vaak met eenvoudige vragen en voegen ze context toe naar behoefte, waarbij ze iteratieve heen-en-weer interacties aangaan. o1 zoekt echter geen aanvullende context. In plaats daarvan moeten gebruikers vooraf veel context bieden, beschreven als een "ton" informatie, of ongeveer tien keer de context die je zou gebruiken voor een standaard prompt.

Geef alle details van geprobeerde oplossingen.
Voeg volledige database schema dumps toe.
Leg bedrijfsspecifieke zaken, schaal en terminologie uit.

Het wordt aanbevolen om o1 te behandelen als een nieuwe medewerker, waarbij alle nodige informatie vanaf het begin wordt verstrekt.

Focus Op Gewenste Output

Na het verstrekken van uitgebreide context moeten gebruikers duidelijk de gewenste output definiëren. In tegenstelling tot andere modellen waar gebruikers de persona of het denkproces kunnen specificeren, moet je bij o1 uitsluitend focussen op "wat" je wilt, niet "hoe" het model het moet doen. Dit stelt o1 in staat om zelfstandig de vereiste stappen te plannen en uit te voeren, wat leidt tot snellere en efficiëntere resultaten.

Sterktes en Zwaktes van o1

o1 blinkt uit in verschillende gebieden:

Verwerken van hele bestanden: Het kan grote codeblokken en uitgebreide context aan, waarbij vaak hele bestanden met minimale fouten worden voltooid.
Verminderen van hallucinaties: o1 is nauwkeurig in gebieden zoals aangepaste querytalen (bijv. ClickHouse en New Relic), terwijl andere modellen de syntax kunnen verwarren.
Medische diagnose: o1 kan verrassend nauwkeurige voorlopige diagnoses bieden op basis van afbeeldingen en beschrijvingen.
Concepten uitleggen: Het is bedreven in het uitleggen van complexe technische concepten door middel van voorbeelden.
Genereren van architectuurplannen: o1 kan meerdere plannen maken, ze vergelijken en voor- en nadelen opsommen.
Evaluatie: Het is veelbelovend als een effectief hulpmiddel voor het evalueren van resultaten.

Echter, o1 heeft ook beperkingen:

Schrijven in specifieke stijlen: Het neigt rapporten te produceren in een academische of zakelijke stijl en heeft moeite met het aanpassen aan specifieke tonen.
Bouwen van volledige applicaties: Hoewel het bedreven is in het genereren van hele bestanden, kan het geen volledige SaaS applicatie bouwen door iteratie. Het kan echter wel hele functies voltooien, met name front-end of eenvoudige back-end functionaliteiten.

Het Belang van Vertraging

Het artikel merkt op dat vertraging fundamenteel onze perceptie van producten verandert, met voorbeelden zoals e-mail versus sms, en spraakberichten versus telefoongesprekken. Hylak vergelijkt o1 met e-mail in plaats van een chatmodel, vanwege de vertraging in de reacties. Deze vertraging maakt nieuwe soorten producten mogelijk die profiteren van hoge latency, langdurige achtergrondintelligentie. De vraag wordt dan: voor welke taken zijn mensen bereid 5 minuten, een uur, een dag of zelfs 3-5 werkdagen te wachten?

Het is belangrijk op te merken dat o1-preview en o1-mini streaming ondersteunen, maar geen gestructureerde generatie of systeem prompts, terwijl o1 wel gestructureerde generatie en systeem prompts ondersteunt, maar geen streaming. Het begrijpen van deze verschillen zal cruciaal zijn voor ontwikkelaars bij het ontwerpen van producten in 2025.