Published on

Deepseek-v3 Surpreende ao Superar Claude 3.5 Sonnet em Programação

Autores
  • avatar
    Nome
    Ajax
    Twitter

Deepseek-v3: Um Novo Modelo Surpreende a Comunidade de IA

O cenário da inteligência artificial (IA) foi abalado com a inesperada revelação do Deepseek-v3, um modelo de linguagem grande (LLM) que, apesar de não ter sido anunciado, já está demonstrando um desempenho impressionante. Este modelo, que vazou para o público através de APIs e páginas web, rapidamente chamou a atenção por sua performance superior em diversas áreas, especialmente na programação.

Destaques Principais

  • Desempenho Superior em Programação: O Deepseek-v3 superou o Claude 3.5 Sonnet no benchmark Aider para programação multilíngue, um feito notável que o posiciona como um dos modelos mais avançados na área.
  • Líder em Open-Source: Atualmente, o Deepseek-v3 é reconhecido como o LLM open-source mais forte na plataforma de avaliação LiveBench, consolidando sua importância para a comunidade de código aberto.
  • Arquitetura Avançada: A arquitetura do modelo é baseada em uma estrutura MoE (Mixture of Experts) com 685 bilhões de parâmetros, representando uma evolução significativa em relação às versões anteriores.

Detalhes Técnicos do Deepseek-v3

Arquitetura do Modelo

  • Tamanho dos Parâmetros: 685 bilhões de parâmetros, demonstrando a escala do modelo.
  • Estrutura MoE: Utiliza uma arquitetura Mixture of Experts com 256 especialistas, permitindo uma maior capacidade de processamento e especialização.
  • Roteamento: Emprega uma função sigmoide para roteamento, selecionando os 8 melhores especialistas (Top-k=8), o que otimiza a eficiência do processamento.
  • Janela de Contexto: Suporta uma janela de contexto de 64K, com um padrão de 4K e um máximo de 8K, permitindo a análise de textos mais longos e complexos.
  • Velocidade de Geração de Tokens: Aproximadamente 60 tokens por segundo, garantindo uma resposta rápida e eficiente.

Mudanças Arquitetônicas Chave em Relação ao V2

  • Função Gate: A versão v3 utiliza uma função sigmoide em vez de softmax para a seleção de especialistas. Isso permite que o modelo escolha entre um conjunto maior de especialistas, ao contrário do softmax, que tende a favorecer apenas alguns.
  • Seleção Top-k: A v3 introduz um novo método noaux_tc para a seleção Top-k, que não requer uma perda auxiliar. Isso simplifica o treinamento e melhora a eficiência ao utilizar diretamente a função de perda da tarefa principal.
  • Ajuste da Pontuação do Especialista: Um novo parâmetro, e_score_correction_bias, foi adicionado para ajustar as pontuações dos especialistas, resultando em melhor desempenho durante a seleção de especialistas e o treinamento do modelo.

Comparação com V2 e V2.5

  • v3 vs v2: A v3 é essencialmente uma versão aprimorada da v2, com melhorias significativas em todos os parâmetros, indicando uma evolução substancial na capacidade do modelo.
  • v3 vs v2.5: A v3 supera a v2.5 em termos de configuração, incluindo mais especialistas, tamanhos maiores de camadas intermediárias e mais especialistas por token, o que demonstra um avanço considerável na arquitetura.

Testes e Observações dos Usuários

Testes Iniciais

  • Identificação como GPT-4: Simon Willison, um desenvolvedor, testou o Deepseek-v3 e descobriu que ele se identificava como sendo baseado na arquitetura GPT-4 da OpenAI, o que gerou curiosidade e especulação.
  • Geração de Imagens: O modelo também foi testado para geração de imagens, criando uma imagem SVG de um pelicano andando de bicicleta, mostrando sua versatilidade.

Autoidentificação Inesperada

  • Baseado em Modelos OpenAI: Vários usuários relataram que o Deepseek-v3 se identificava como baseado em modelos da OpenAI, possivelmente devido ao uso de respostas de modelos da OpenAI durante o treinamento. Este comportamento inesperado levanta questões sobre a influência de outros modelos no treinamento do Deepseek-v3.

Reação da Comunidade

  • Entusiasmo: A liberação inesperada e o forte desempenho do Deepseek-v3 geraram entusiasmo na comunidade de IA, com muitos ansiosos para explorar seu potencial.
  • Desempenho Superior: Alguns usuários acreditam que o desempenho do Deepseek-v3 supera o dos modelos da OpenAI, especialmente no domínio open-source, o que pode representar um ponto de virada para a IA de código aberto.

Recursos Adicionais

O Deepseek-v3 representa um avanço significativo na área de modelos de linguagem, com seu desempenho superior e arquitetura inovadora, demonstrando o potencial da IA open-source. A comunidade está ansiosa para ver como este modelo continuará a evoluir e impactar o futuro da inteligência artificial.