- Published on
Deepseek-v3: El Nuevo Modelo Sorpresa Supera a Claude 3.5 Sonnet en Programación
Deepseek-v3: Un Avance Inesperado en el Mundo de los LLM
Deepseek-v3, un modelo de lenguaje grande (LLM) que no había sido anunciado previamente, ha emergido en la escena tecnológica con un rendimiento impresionante. Este modelo ha sido filtrado y ya está demostrando capacidades que superan las expectativas, especialmente en el ámbito de la programación.
Rendimiento Superior en Benchmarks de Programación
Uno de los logros más destacados de Deepseek-v3 es su capacidad para superar a Claude 3.5 Sonnet en el benchmark de programación multilingüe Aider. Este resultado posiciona a Deepseek-v3 como un contendiente serio en el campo de los LLM, especialmente en tareas que involucran la generación y comprensión de código. Además, Deepseek-v3 actualmente ostenta el título del LLM de código abierto más fuerte en la plataforma de evaluación LiveBench.
Arquitectura Avanzada: La Clave del Éxito
La arquitectura de Deepseek-v3 es un factor clave en su rendimiento superior. Este modelo cuenta con una estructura de 685 mil millones de parámetros y una arquitectura de Mezcla de Expertos (MoE). Esta estructura, que consta de 256 expertos, permite al modelo manejar tareas complejas y mejorar significativamente el rendimiento en comparación con versiones anteriores.
Detalles Técnicos de Deepseek-v3
Arquitectura del Modelo
- Tamaño de Parámetros: 685 mil millones
- Estructura MoE: Arquitectura de Mezcla de Expertos con 256 expertos
- Enrutamiento: Utiliza una función sigmoide para el enrutamiento, seleccionando los 8 mejores expertos (Top-k=8)
- Ventana de Contexto: Soporta 64K de contexto, con un valor predeterminado de 4K y un máximo de 8K
- Velocidad de Generación de Tokens: Aproximadamente 60 tokens por segundo
Cambios Arquitectónicos Clave en Comparación con V2
- Función de Puerta: v3 utiliza una función sigmoide en lugar de softmax para la selección de expertos. Esto permite al modelo elegir entre un conjunto más amplio de expertos, a diferencia de softmax que tiende a favorecer a unos pocos.
- Selección Top-k: v3 introduce un nuevo método noaux_tc para la selección Top-k, que no requiere una pérdida auxiliar. Esto simplifica el entrenamiento y mejora la eficiencia al utilizar directamente la función de pérdida de la tarea principal.
- Ajuste de Puntuación de Expertos: Se ha añadido un nuevo parámetro, e_score_correction_bias, para ajustar las puntuaciones de los expertos, lo que conduce a un mejor rendimiento durante la selección de expertos y el entrenamiento del modelo.
Comparación con V2 y V2.5
- v3 vs v2: v3 es esencialmente una versión mejorada de v2, con mejoras significativas en todos los parámetros.
- v3 vs v2.5: v3 supera a v2.5 en términos de configuración, incluyendo más expertos, tamaños de capa intermedia más grandes y más expertos por token.
El Origen de la Fuga y su Impacto
La filtración de Deepseek-v3 fue reportada inicialmente por usuarios de Reddit, quienes encontraron el modelo disponible en APIs y páginas web. Esta revelación inesperada ha generado un gran interés y debate en la comunidad de la inteligencia artificial.
Evaluación en Benchmarks y Disponibilidad
El rendimiento de Deepseek-v3 ha sido evaluado en varios benchmarks, incluyendo Aider y LiveBench. Los pesos de código abierto del modelo ya están disponibles en Hugging Face, aunque aún no se dispone de una tarjeta de modelo.
Pruebas y Observaciones de Usuarios
Pruebas Iniciales
Simon Willison, un desarrollador, probó Deepseek-v3 y descubrió que se identificaba a sí mismo como basado en la arquitectura GPT-4 de OpenAI. El modelo también fue probado para la generación de imágenes, creando una imagen SVG de un pelícano montando una bicicleta.
Auto-Identificación Inesperada
Varios usuarios informaron que Deepseek-v3 se identificaba a sí mismo como basado en modelos de OpenAI, posiblemente debido al uso de respuestas de modelos de OpenAI durante el entrenamiento. Esta auto-identificación inesperada ha generado curiosidad y especulaciones entre los usuarios y expertos.
Reacción de la Comunidad
La inesperada liberación y el sólido rendimiento de Deepseek-v3 han generado entusiasmo en la comunidad de la inteligencia artificial. Algunos usuarios creen que el rendimiento de Deepseek-v3 supera al de los modelos de OpenAI, especialmente en el dominio del código abierto. La disponibilidad de los pesos del modelo en Hugging Face ha facilitado la experimentación y el análisis por parte de la comunidad.