Published on

Deepseek-v3: El Nuevo Modelo Sorpresa Supera a Claude 3.5 Sonnet en Programación

Autores
  • avatar
    Nombre
    Ajax
    Twitter

Deepseek-v3: Un Avance Inesperado en el Mundo de los LLM

Deepseek-v3, un modelo de lenguaje grande (LLM) que no había sido anunciado previamente, ha emergido en la escena tecnológica con un rendimiento impresionante. Este modelo ha sido filtrado y ya está demostrando capacidades que superan las expectativas, especialmente en el ámbito de la programación.

Rendimiento Superior en Benchmarks de Programación

Uno de los logros más destacados de Deepseek-v3 es su capacidad para superar a Claude 3.5 Sonnet en el benchmark de programación multilingüe Aider. Este resultado posiciona a Deepseek-v3 como un contendiente serio en el campo de los LLM, especialmente en tareas que involucran la generación y comprensión de código. Además, Deepseek-v3 actualmente ostenta el título del LLM de código abierto más fuerte en la plataforma de evaluación LiveBench.

Arquitectura Avanzada: La Clave del Éxito

La arquitectura de Deepseek-v3 es un factor clave en su rendimiento superior. Este modelo cuenta con una estructura de 685 mil millones de parámetros y una arquitectura de Mezcla de Expertos (MoE). Esta estructura, que consta de 256 expertos, permite al modelo manejar tareas complejas y mejorar significativamente el rendimiento en comparación con versiones anteriores.

Detalles Técnicos de Deepseek-v3

Arquitectura del Modelo

  • Tamaño de Parámetros: 685 mil millones
  • Estructura MoE: Arquitectura de Mezcla de Expertos con 256 expertos
  • Enrutamiento: Utiliza una función sigmoide para el enrutamiento, seleccionando los 8 mejores expertos (Top-k=8)
  • Ventana de Contexto: Soporta 64K de contexto, con un valor predeterminado de 4K y un máximo de 8K
  • Velocidad de Generación de Tokens: Aproximadamente 60 tokens por segundo

Cambios Arquitectónicos Clave en Comparación con V2

  • Función de Puerta: v3 utiliza una función sigmoide en lugar de softmax para la selección de expertos. Esto permite al modelo elegir entre un conjunto más amplio de expertos, a diferencia de softmax que tiende a favorecer a unos pocos.
  • Selección Top-k: v3 introduce un nuevo método noaux_tc para la selección Top-k, que no requiere una pérdida auxiliar. Esto simplifica el entrenamiento y mejora la eficiencia al utilizar directamente la función de pérdida de la tarea principal.
  • Ajuste de Puntuación de Expertos: Se ha añadido un nuevo parámetro, e_score_correction_bias, para ajustar las puntuaciones de los expertos, lo que conduce a un mejor rendimiento durante la selección de expertos y el entrenamiento del modelo.

Comparación con V2 y V2.5

  • v3 vs v2: v3 es esencialmente una versión mejorada de v2, con mejoras significativas en todos los parámetros.
  • v3 vs v2.5: v3 supera a v2.5 en términos de configuración, incluyendo más expertos, tamaños de capa intermedia más grandes y más expertos por token.

El Origen de la Fuga y su Impacto

La filtración de Deepseek-v3 fue reportada inicialmente por usuarios de Reddit, quienes encontraron el modelo disponible en APIs y páginas web. Esta revelación inesperada ha generado un gran interés y debate en la comunidad de la inteligencia artificial.

Evaluación en Benchmarks y Disponibilidad

El rendimiento de Deepseek-v3 ha sido evaluado en varios benchmarks, incluyendo Aider y LiveBench. Los pesos de código abierto del modelo ya están disponibles en Hugging Face, aunque aún no se dispone de una tarjeta de modelo.

Pruebas y Observaciones de Usuarios

Pruebas Iniciales

Simon Willison, un desarrollador, probó Deepseek-v3 y descubrió que se identificaba a sí mismo como basado en la arquitectura GPT-4 de OpenAI. El modelo también fue probado para la generación de imágenes, creando una imagen SVG de un pelícano montando una bicicleta.

Auto-Identificación Inesperada

Varios usuarios informaron que Deepseek-v3 se identificaba a sí mismo como basado en modelos de OpenAI, posiblemente debido al uso de respuestas de modelos de OpenAI durante el entrenamiento. Esta auto-identificación inesperada ha generado curiosidad y especulaciones entre los usuarios y expertos.

Reacción de la Comunidad

La inesperada liberación y el sólido rendimiento de Deepseek-v3 han generado entusiasmo en la comunidad de la inteligencia artificial. Algunos usuarios creen que el rendimiento de Deepseek-v3 supera al de los modelos de OpenAI, especialmente en el dominio del código abierto. La disponibilidad de los pesos del modelo en Hugging Face ha facilitado la experimentación y el análisis por parte de la comunidad.

Recursos Adicionales