Published on

DeepSeek V3: Um Modelo de Código Aberto Revolucionário

Autores
  • avatar
    Nome
    Ajax
    Twitter

Visão Geral

O DeepSeek V3, um modelo Mixture-of-Experts (MoE) com 671 bilhões de parâmetros, foi lançado e disponibilizado como código aberto, causando grande impacto na comunidade de IA. Ele foi treinado com 14,8 trilhões de tokens de alta qualidade, com apenas 37 bilhões de parâmetros ativados durante a inferência.

O modelo alcança um desempenho de última geração (SOTA) entre os modelos de código aberto, superando o Llama 3.1 405B e rivalizando com modelos de ponta como o GPT-4o e o Claude 3.5 Sonnet. Além disso, o DeepSeek V3 é significativamente mais barato que os modelos Claude 3.5, custando apenas 9% do Claude 3.5 Sonnet.

Treinamento Econômico

O treinamento do DeepSeek V3 exigiu menos de 2,8 milhões de horas de GPU, um contraste notável com as 30,8 milhões de horas de GPU do Llama 3 405B. O custo total de treinamento para o DeepSeek V3 foi de aproximadamente US5,576milho~es,enquantootreinamentodeummodeloLlama2de7BcustaUS 5,576 milhões, enquanto o treinamento de um modelo Llama 2 de 7B custa US 760.000.

Essa relação custo-benefício é atribuída a algoritmos, estruturas e hardware otimizados. Karpathy, um membro fundador da OpenAI, observou que o DeepSeek V3 alcança um desempenho comparável com significativamente menos recursos, destacando o potencial de otimização em dados e algoritmos.

Desempenho e Avaliação

O DeepSeek V3 recebeu elogios de especialistas em IA como Jia Yangqing e Tian Yundong da Meta. Ele supera outros modelos de código aberto como o Qwen2.5-72B e o Llama-3.1-405B em vários benchmarks. O desempenho do modelo é comparável a modelos fechados de ponta como o GPT-4o e o Claude-3.5-Sonnet.

O DeepSeek V3 gera tokens a uma taxa de 60 por segundo, uma melhoria de velocidade de 3x. O preço da API também é muito competitivo, com tokens de entrada custando 0,5-2 RMB por milhão e tokens de saída custando 8 RMB por milhão. A avaliação da Kagi coloca o DeepSeek V3 no topo dos modelos de código aberto, logo atrás do Sonnet-3.5 e do GPT-4o.

Engajamento da Comunidade

O modelo está disponível para teste na plataforma oficial, com o código aberto para download. Entusiastas de IA têm experimentado o DeepSeek V3, incluindo a execução em Mac Minis empilhados. Desenvolvedores expressaram espanto com a capacidade do modelo de entender instruções complexas sem explicações explícitas.

Um desenvolvedor criou um jogo usando logotipos de empresas de IA com o DeepSeek V3 em um curto período de tempo. O baixo custo de execução do DeepSeek V3 foi destacado, com um usuário observando que custa apenas US$ 2 por dia para executar a 60 tokens por segundo.

Detalhes do Treinamento

O treinamento do DeepSeek V3 foi otimizado por meio de melhorias algorítmicas, de estrutura e de hardware. O modelo foi treinado com um trilhão de tokens em 180.000 horas de GPU, concluindo o pré-treinamento em menos de dois meses. O custo total de treinamento foi de 2,788 milhões de horas de GPU, ou US$ 5,576 milhões.

As principais otimizações incluem:

  • Balanceamento de Carga: Uma nova estratégia de balanceamento de carga com termos de viés para cada especialista na arquitetura MoE.
  • Previsão Multi-Token (MTP): Um objetivo de treinamento que melhora o desempenho do modelo e permite uma inferência mais rápida por meio da decodificação especulativa.
  • Treinamento FP8: O uso do treinamento de precisão mista FP8, demonstrando sua viabilidade para modelos de grande escala.
  • DualPipe: Um algoritmo paralelo de pipeline eficiente que sobrepõe computação e comunicação, reduzindo a sobrecarga de comunicação.

A arquitetura MoE consiste em 256 especialistas de roteamento e 1 especialista compartilhado, com cada token ativando 8 especialistas e sendo enviado para um máximo de 4 nós. Especialistas redundantes são implantados para equilibrar a carga durante a inferência. As capacidades de inferência do modelo foram aprimoradas destilando o conhecimento de um modelo de cadeia longa (DeepSeek R1).

Resultados Experimentais

O DeepSeek V3 alcança um desempenho SOTA entre os modelos de código aberto em vários benchmarks. O modelo tem um bom desempenho em experimentos de "agulha no palheiro", demonstrando sua capacidade de recuperar informações específicas de contextos longos.

Recursos

O DeepSeek V3 representa um marco significativo na IA de código aberto, oferecendo um desempenho de ponta com custos notavelmente reduzidos. Sua arquitetura inovadora e técnicas de treinamento otimizadas o colocam como um forte concorrente no cenário da IA, com um futuro promissor para futuras aplicações e desenvolvimentos.