Published on

DeepSeek V3: El Modelo de Código Abierto que Revoluciona la IA

Autores
  • avatar
    Nombre
    Ajax
    Twitter

DeepSeek V3: Un Modelo de Código Abierto Revolucionario

DeepSeek V3, un modelo de 671 mil millones de parámetros con arquitectura Mixture-of-Experts (MoE), ha sido liberado como código abierto, generando gran expectación en la comunidad de la inteligencia artificial. Este modelo ha sido entrenado con 14.8 billones de tokens de alta calidad, y durante la inferencia, solo 37 mil millones de parámetros están activos.

Rendimiento y Comparación

DeepSeek V3 ha alcanzado un rendimiento de vanguardia (SOTA) entre los modelos de código abierto, superando a Llama 3.1 de 405 mil millones de parámetros y compitiendo con modelos líderes como GPT-4o y Claude 3.5 Sonnet. Una de las características más destacadas de DeepSeek V3 es su eficiencia en costos, ya que es significativamente más económico que Claude 3.5, costando solo el 9% de Claude 3.5 Sonnet.

Entrenamiento Eficiente en Costos

El entrenamiento de DeepSeek V3 requirió menos de 2.8 millones de horas de GPU, una cifra muy inferior a las 30.8 millones de horas de GPU necesarias para Llama 3 405B. El costo total de entrenamiento de DeepSeek V3 fue de aproximadamente 5.576millones,encomparacioˊnconlos5.576 millones, en comparación con los 760,000 que cuesta entrenar un modelo Llama 2 de 7 mil millones de parámetros. Esta rentabilidad se atribuye a la optimización de algoritmos, frameworks y hardware.

Andrej Karpathy, miembro fundador de OpenAI, señaló que DeepSeek V3 logra un rendimiento comparable con muchos menos recursos, destacando el potencial de optimización en datos y algoritmos.

Evaluación y Reconocimiento

DeepSeek V3 ha recibido elogios de expertos en IA como Jia Yangqing y Tian Yundong de Meta. Supera a otros modelos de código abierto como Qwen2.5-72B y Llama-3.1-405B en varias pruebas de referencia. Su rendimiento es comparable al de modelos de código cerrado de alto nivel como GPT-4o y Claude-3.5-Sonnet.

El modelo genera tokens a una velocidad de 60 por segundo, lo que representa una mejora de velocidad de 3 veces. Además, el precio de la API es muy competitivo, con tokens de entrada que cuestan entre 0.5 y 2 RMB por millón y tokens de salida a 8 RMB por millón. Kagi ha evaluado a DeepSeek V3 como el mejor modelo de código abierto, muy cerca de Sonnet-3.5 y GPT-4o.

Participación de la Comunidad

El modelo está disponible para pruebas en la plataforma oficial, y el código se ha publicado como código abierto para su descarga. Los entusiastas de la IA han estado experimentando con DeepSeek V3, incluso ejecutándolo en Mac Minis apilados. Los desarrolladores han expresado su asombro por la capacidad del modelo para entender instrucciones complejas sin explicaciones explícitas.

Un desarrollador creó un juego utilizando logotipos de empresas de IA con DeepSeek V3 en poco tiempo. También se ha destacado el bajo costo de ejecución de DeepSeek V3, con un usuario que señaló que solo cuesta $2 por día ejecutarlo a 60 tokens por segundo.

Detalles del Entrenamiento

El entrenamiento de DeepSeek V3 se optimizó mediante mejoras algorítmicas, de framework y de hardware. El modelo se entrenó con un billón de tokens en 180,000 horas de GPU, completando el pre-entrenamiento en menos de dos meses. El costo total de entrenamiento fue de 2.788 millones de horas de GPU, o $5.576 millones.

Las optimizaciones clave incluyen:

  • Balanceo de Carga: Una novedosa estrategia de balanceo de carga con términos de sesgo para cada experto en la arquitectura MoE.
  • Predicción Multi-Token (MTP): Un objetivo de entrenamiento que mejora el rendimiento del modelo y permite una inferencia más rápida mediante la decodificación especulativa.
  • Entrenamiento FP8: El uso de entrenamiento de precisión mixta FP8, que demuestra su viabilidad para modelos a gran escala.
  • DualPipe: Un algoritmo eficiente de paralelismo de pipeline que superpone la computación y la comunicación, reduciendo la sobrecarga de comunicación.

La arquitectura MoE consta de 256 expertos de enrutamiento y 1 experto compartido, donde cada token activa 8 expertos y se envía a un máximo de 4 nodos. Se despliegan expertos redundantes para equilibrar la carga durante la inferencia. Las capacidades de inferencia del modelo se mejoraron mediante la destilación de conocimientos de un modelo de cadena larga (DeepSeek R1).

Resultados Experimentales

DeepSeek V3 logra un rendimiento SOTA entre los modelos de código abierto en varias pruebas de referencia. El modelo tiene un buen desempeño en experimentos de "aguja en un pajar", lo que demuestra su capacidad para recuperar información específica de contextos largos.

Recursos Adicionales