Published on

o1 Não é um Modelo de Chat Uma Análise Detalhada

Autores
  • avatar
    Nome
    Ajax
    Twitter

O Modelo o1: Além do Chat

O artigo aborda o recente interesse em torno do modelo o1, esclarecendo que ele não foi projetado como um modelo de chat, apesar de muitos usuários inicialmente o tratarem como tal. Esta revelação surgiu após uma postagem no blog intitulada "o1 não é um modelo de chat (e esse é o ponto)", que ganhou destaque, chamando a atenção do CEO da OpenAI, Sam Altman, e do presidente Greg Brockman.

Mal-entendidos e Frustrações Iniciais

Ben Hylak, ex-engenheiro de software da SpaceX e designer de interação para o Apple VisionOS, compartilhou sua experiência frustrante com o o1. Ele achou suas respostas lentas, muitas vezes contraditórias e repletas de diagramas de arquitetura não solicitados e listas de prós e contras. A reação inicial de Hylak foi que o o1 era simplesmente "lixo".

  • Hylak experimentou tempos de espera de 5 minutos para respostas.
  • As respostas eram frequentemente autocontraditórias e sem sentido.
  • O modelo fornecia diagramas e listas não solicitados.

Sua frustração levou a postagens nas redes sociais expressando sua decepção, afirmando que o o1 pro era "muito ruim" e que sua saída era "quase um absurdo". Ele deu o exemplo de pedir conselhos de refatoração, apenas para o modelo sugerir a fusão de arquivos, fornecer código que não fundia arquivos e, em seguida, saltar para conclusões não relacionadas.

Uma Mudança de Perspectiva

A experiência de Hylak não foi universal. Alguns usuários acharam o o1 altamente eficaz, o que levou a mais discussões. Através dessas interações, Hylak percebeu seu erro: ele estava usando o o1 como um modelo de chat quando não se destinava a funcionar como um.

Esta mudança de perspectiva foi bem recebida por Altman, que observou que era "interessante observar as atitudes das pessoas mudarem à medida que aprendem a usar o o1 (incluindo a versão pro)". Greg Brockman ecoou isso, salientando que o o1 é um tipo diferente de modelo e exige uma abordagem diferente para um desempenho ideal.

o1: Um Gerador de Relatórios

O artigo sugere que, em vez de um modelo de chat, o o1 deve ser visto como um "gerador de relatórios". Dado contexto suficiente e requisitos de saída claros, o o1 pode fornecer soluções eficazmente. A chave está em como o modelo é usado.

De Prompts a Briefs

Ao usar modelos de chat típicos, os usuários geralmente começam com perguntas simples e adicionam contexto conforme necessário, envolvendo-se em interações iterativas de vai e vem. No entanto, o o1 não busca contexto adicional. Em vez disso, os usuários precisam fornecer muito contexto antecipadamente, descrito como uma "tonelada" de informações, ou cerca de dez vezes o contexto que você usaria para um prompt padrão.

  • Forneça todos os detalhes das soluções tentadas.
  • Inclua dumps completos do esquema do banco de dados.
  • Explique o negócio específico da empresa, a escala e a terminologia.

Recomenda-se tratar o o1 como um novo funcionário, fornecendo todas as informações necessárias desde o início.

Foco na Saída Desejada

Após fornecer um contexto extenso, os usuários devem definir claramente a saída desejada. Ao contrário de outros modelos em que os usuários podem especificar a persona ou o processo de pensamento, com o o1, você deve se concentrar apenas no "o que" você deseja, não em "como" o modelo deve fazê-lo. Isso permite que o o1 planeje e execute independentemente as etapas necessárias, levando a resultados mais rápidos e eficientes.

Pontos Fortes e Fracos do o1

O o1 se destaca em várias áreas:

  • Processamento de arquivos inteiros: Ele pode lidar com grandes blocos de código e contexto extenso, muitas vezes concluindo arquivos inteiros com erros mínimos.
  • Redução de alucinações: O o1 é preciso em áreas como linguagens de consulta personalizadas (por exemplo, ClickHouse e New Relic), enquanto outros modelos podem misturar a sintaxe.
  • Diagnóstico médico: O o1 pode oferecer diagnósticos preliminares surpreendentemente precisos com base em imagens e descrições.
  • Explicação de conceitos: Ele é hábil em explicar conceitos de engenharia complexos por meio de exemplos.
  • Geração de planos arquitetônicos: O o1 pode criar vários planos, compará-los e listar prós e contras.
  • Avaliação: Ele mostra promessa como uma ferramenta eficaz para avaliar resultados.

No entanto, o o1 também tem limitações:

  • Escrita em estilos específicos: Ele tende a produzir relatórios em um estilo acadêmico ou corporativo e tem dificuldades para se adaptar a tons específicos.
  • Construção de aplicações inteiras: Embora proficiente na geração de arquivos inteiros, ele não pode construir um aplicativo SaaS completo por meio de iteração. No entanto, ele pode concluir recursos inteiros, particularmente funcionalidades front-end ou back-end simples.

A Importância do Atraso

O artigo observa que o atraso altera fundamentalmente nossa percepção dos produtos, citando exemplos como e-mail vs. mensagens de texto e mensagens de voz vs. telefonemas. Hylak compara o o1 ao e-mail em vez de um modelo de chat, devido ao atraso em suas respostas. Esse atraso permite novos tipos de produtos que se beneficiam da inteligência de background de alta latência e longa duração. A questão então se torna: para quais tarefas as pessoas estão dispostas a esperar 5 minutos, uma hora, um dia ou mesmo 3-5 dias úteis?

É importante notar que o o1-preview e o o1-mini suportam streaming, mas não geração estruturada ou system prompts, enquanto o o1 suporta geração estruturada e system prompts, mas não streaming. Compreender essas diferenças será crucial para os desenvolvedores ao projetar produtos em 2025.