Published on

OpenAI O3: Avanço na Razão e Descoberta na ARC AGI

Autores
  • avatar
    Nome
    Ajax
    Twitter

O Modelo O3 da OpenAI: Um Salto no Raciocínio e Avanço na ARC AGI

A OpenAI revelou recentemente seu modelo O3, marcando um avanço notável na área de inteligência artificial. Este modelo, previsto para ser disponibilizado ao público no início de 2025, demonstra um progresso significativo em relação ao modelo o1, especialmente em termos de capacidade de raciocínio. Este artigo detalha os aspectos mais importantes do modelo O3, incluindo seus resultados em testes de referência e suas implicações para o futuro da IA.

Destaques Principais do Modelo O3

  • Geração de Consenso: A geração de consenso através de múltiplas amostras é crucial para o desempenho ideal dos modelos o1, e isso se aplica a todas as fases de raciocínio. Não se deve confiar apenas em um único fluxo de saída para obter os melhores resultados.

  • Sem Alteração na Arquitetura de Raciocínio: Não há evidências de que o modelo O3 tenha alterado sua arquitetura de raciocínio através da adição de pesquisa em árvore. O princípio fundamental da lei de escala de raciocínio é que a amostragem de mais conteúdo da mesma geração de fluxo único leva a melhorias de desempenho.

  • Reforço do Aprendizado por Reforço (RL): O ano corrente marca o retorno do aprendizado por reforço (RL) e métodos relacionados como a força central da inteligência artificial.

  • Previsão do Modelo O3: A OpenAI anunciou seu modelo O3, um avanço em relação ao treinamento de modelos de linguagem para raciocínio usando o modelo o1. Os modelos começarão com o o3-mini e estarão disponíveis publicamente no final de janeiro de 2025.

  • Ano de Consolidação da IA: Muitos observadores consideram 2024 como um ano de consolidação na IA, com muitos participantes alcançando níveis comparáveis ao GPT-4 e explorando aplicações práticas.

  • O3 Supera as Expectativas: O lançamento do O3 mudou o panorama de 2024, pois ele superou as expectativas, representando um rápido avanço nos modelos de raciocínio. O lançamento rápido e eficiente do O3 contrasta com o longo período de preparação do o1, e nos deixa com grandes expectativas para 2025.

  • Aplicabilidade dos Modelos o1: Apesar de algumas dúvidas quanto à aplicabilidade dos modelos o1 fora da matemática, programação, física e ciências exatas, esses modelos devem ser amplamente utilizados em todo o ecossistema de pesquisa de IA, acelerando significativamente o progresso.

  • Falta de Exploração: Uma perspectiva otimista é que não houve tempo suficiente para explorar as aplicações desses modelos e nem métodos de treinamento de aprendizado por reforço para expandir os modelos de raciocínio para outras áreas.

Avanços Notáveis do Modelo O3

O modelo O3 da OpenAI marca uma nova etapa na evolução da IA, demonstrando que os ganhos obtidos apenas com o pré-treinamento em texto da internet estão diminuindo. O O3 alcançou avanços significativos em avaliações de raciocínio, incluindo:

  • Desafio ARC AGI: O primeiro modelo a superar 85% de conclusão no prêmio ARC AGI (em dados públicos, não em um conjunto de testes, e excedendo restrições de custo).

  • Frontier Math: Um salto significativo de 2% para 25% no novo benchmark Frontier Math.

  • Benchmarks de Programação: Melhorias notáveis em todos os benchmarks de programação líderes, como o SWE-Bench-Verified.

  • Aceleração da Pesquisa em IA: Essas melhorias ocorreram em apenas três meses após o anúncio da primeira versão do modelo, e devem acelerar significativamente o progresso na pesquisa de IA.

  • Impacto na Engenharia de Software: A redução nos custos de raciocínio deverá impactar significativamente as funções de engenharia de software.

  • Alinhamento e Segurança: A OpenAI também publicou um artigo sobre alinhamento e segurança, demonstrando como os modelos o1 podem aprimorar a pesquisa nessas áreas. Isso fornece evidências preliminares de que as capacidades de raciocínio podem trazer valor além de áreas verificáveis.

Visão Geral do Modelo O3

O modelo O3 foi anunciado no último dia do "OpenAI's 12-day release event" e superou modelos de ponta anteriores em vários campos, como o Gemini 1.5 Pro e o Claude 3.5 Sonnet New.

  • Detalhes Importantes: Um detalhe frequentemente negligenciado é o significado das áreas sombreadas em gráficos de barras nas postagens do blog sobre os modelos o1. Essas áreas sombreadas representam o desempenho usando votação majoritária (consenso) de 64 amostras.

  • Consenso e Desempenho: A geração de consenso a partir de múltiplas amostras é crucial para o desempenho ideal dos modelos o1, e isso se aplica a todas as fases do raciocínio.

  • Sem Necessidade de Pesquisa em Árvore: O modelo O3 não utiliza necessariamente pesquisa em árvore ou alguma representação intermediária. O modelo profissional o1 e os resultados do prêmio ARC utilizam geração paralela para obter pontuações máximas.

Testes de Referência e Desempenho

  • Frontier Math: O benchmark Frontier Math é extremamente desafiador, com comentários de ganhadores da Medalha Fields que indicam a dificuldade dos problemas. O modelo O3 foi o único a alcançar uma pontuação de dois dígitos, saltando para 25%.

  • Programação: A OpenAI demonstrou uma pontuação de 71,7% no SWE-Bench Verified, bem como resultados no Codeforces. O modelo O3 alcançou o nível de Grande Mestre Internacional no Codeforces, colocando-o entre os 200 melhores programadores do mundo.

  • Modelo o3-mini: O o3-mini superou o o1 em desempenho, com custos significativamente menores. Isso pode torná-lo um modelo mais influente para uma gama mais ampla de usuários.

Desafio ARC AGI

  • Abstração e Raciocínio: O Abstract and Reasoning Corpus (ARC) é um método de avaliação de IA que busca se aproximar da avaliação da inteligência humana. O ARC foi projetado para medir a eficiência na aquisição de habilidades, enfatizando conceitos como alcance, dificuldade de generalização e conhecimento prévio.

  • Prêmio ARC AGI: O prêmio ARC AGI, lançado em junho de 2024, oferece um prêmio de US$ 1 milhão para a primeira solução que atinge um limiar de 85% de precisão em um conjunto de tarefas ARC privadas.

  • Avanço Rápido: O progresso nos modelos de raciocínio da OpenAI foi rápido, com o GPT-4o atingindo apenas 5% de precisão antes dos modelos o1. O O3 alcançou 87% de precisão em sua versão ajustada mais alta.

  • Testes do Modelo O3: O modelo O3 foi testado em dois conjuntos de dados ARC-AGI, um conjunto de avaliação semi-privado e um conjunto de avaliação público, com diferentes níveis de computação.

  • Desafios Não Resolvidos: Apesar dos avanços, existem problemas que o modelo O3 ainda não consegue resolver.

Arquitetura, Custo e Treinamento do Modelo O3

  • Estimativas de Preço: A equipe ARC AGI obteve estimativas de preços para o modelo O3, que podem variar quando o modelo for lançado na API.

  • Custo e FLOPs: A equipe registrou o custo total e o custo por tarefa como uma medida de FLOPs ou uso de recursos computacionais. O custo do O3 excedeu o limite de US$ 10.000 para 500 tarefas.

  • Especulações sobre o Modelo: Há especulações de que o O3 pode usar busca de programas em linguagem natural no espaço de tokens, semelhante à busca em árvore de Monte Carlo.

  • Aprendizado por Reforço: A OpenAI enfatizou que o O3 é "apenas um modelo treinado através de aprendizado por reforço".

  • Análise de Custos: Com base nos custos do ARC e nos preços da OpenAI para o o1, o custo por consulta do O3 pode chegar a US$ 5.000, gerando cerca de 80 milhões de tokens por resposta.

  • Escala de Raciocínio: O modelo O3 foi avaliado em duas configurações: uma eficiente com 6 amostras e uma de baixa eficiência com 1024 amostras.

  • Modelo Base: O modelo O3 pode ter um modelo base maior, o que justifica o aumento dos custos computacionais.

  • Arquitetura e Treinamento: A explicação mais simples é que o O3 utiliza a mesma arquitetura e métodos de treinamento que o o1, mas em uma escala maior.

  • Sem Pesquisa em Árvore: Não há evidências de que o O3 tenha alterado sua arquitetura de raciocínio ao adicionar busca em árvore, e a lei de escala de raciocínio sugere que mais amostras da mesma geração podem melhorar o desempenho.

  • Modelo Base Orion: Uma questão importante é se o modelo base do O3 é o Orion (possivelmente GPT-5) ou se o novo modelo base apenas se beneficiou do Orion durante o treinamento.

  • Incertezas: Detalhes sobre o O3 permanecem incertos, com a equipe ARC observando que o modelo foi "ajustado" ("tuned").

RL Retorna em 2024

  • Importância do RLHF: Dario Amodei, co-fundador da Anthropic, destacou que a expansão dos modelos é necessária porque a inteligência ainda não é suficiente para aplicar o RLHF (aprendizado por reforço com feedback humano).

  • Aprendizado por Reforço: O ano corrente marca o retorno do aprendizado por reforço (RL) e métodos relacionados como a força central da inteligência artificial.

  • Futuro do Raciocínio: O autor do artigo expressa o desejo de treinar um modelo de linguagem baseado em raciocínio semelhante em 2025, destacando que modelos como o o1 se tornarão ferramentas padrão na IA.