Published on

MiniMax lanza modelo de código abierto de 456B parámetros y contexto de 4M

Autores
  • avatar
    Nombre
    Ajax
    Twitter

MiniMax Abraza la Era de los Agentes

La comunidad de IA está repleta de predicciones que señalan el 2025 como el año del Agente de IA. Líderes de la industria como Sam Altman de OpenAI, Mark Zuckerberg de Meta y Jensen Huang de Nvidia han sugerido que los Agentes de IA impactarán significativamente la fuerza laboral y el panorama de IT. MiniMax ha respondido a esta tendencia emergente liberando como código abierto su último modelo de lenguaje fundacional, MiniMax-Text-01, y el modelo visual-multimodal, MiniMax-VL-01.

Una innovación clave de estos nuevos modelos es la implementación de un novedoso mecanismo de atención lineal, que expande significativamente la ventana de contexto. Los modelos de MiniMax pueden procesar 4 millones de tokens a la vez, lo que es de 20 a 32 veces más que otros modelos. Este avance es crucial para las aplicaciones de Agentes, que requieren ventanas de contexto largas para administrar la memoria y la colaboración entre múltiples agentes.

Innovaciones que Impulsan los Modelos de Código Abierto de MiniMax

MiniMax-Text-01 es el resultado de varias innovaciones, incluyendo:

  • Lightning Attention: Una forma de atención lineal que reduce la complejidad computacional de la arquitectura Transformer de cuadrática a lineal. Esto se logra a través de un truco de kernel de producto derecho, que permite una computación más eficiente de la atención.
  • Hybrid-lightning: Una combinación de Lightning Attention y atención softmax, donde Lightning Attention se reemplaza con atención softmax cada ocho capas. Este enfoque mejora las capacidades de escalado mientras se mantiene la eficiencia.
  • Mixture of Experts (MoE): Comparado con modelos densos, los modelos MoE muestran mejoras significativas en el rendimiento, especialmente cuando las cargas computacionales son similares. MiniMax también introdujo un paso de comunicación allgather para prevenir el colapso de enrutamiento al escalar modelos MoE.
  • Optimización Computacional: MiniMax optimizó la arquitectura MoE utilizando un esquema de superposición basado en agrupación de tokens para reducir las cargas de comunicación. Para el entrenamiento de contexto largo, utilizaron una técnica de empaquetado de datos donde las muestras de entrenamiento se conectan de extremo a extremo a lo largo de la dimensión de secuencia. También adoptaron cuatro estrategias de optimización para Lightning Attention: fusión de kernel por lotes, ejecución separada de prellenado y decodificación, relleno multinivel y expansión de multiplicación de matrices por lotes con zancada.

Estas innovaciones han llevado a la creación de un LLM de 456 mil millones de parámetros con 32 expertos, donde cada token activa 45.9 mil millones de parámetros.

Rendimiento de Referencia de MiniMax-Text-01

MiniMax-Text-01 ha demostrado un rendimiento excelente en varios benchmarks, rivalizando e incluso superando a modelos de código cerrado como GPT-4o y Claude 3.5 Sonnet, así como a modelos de código abierto como Qwen2.5 y Llama 3.1.

  • En HumanEval, MiniMax-Text-01 supera a Instruct Qwen2.5-72B.
  • Logró una puntuación de 54.4 en el desafiante conjunto de datos GPQA Diamond, superando a la mayoría de los LLM ajustados y al último GPT-4o.
  • MiniMax-Text-01 también logró puntuaciones entre las tres mejores en MMLU, IFEval y Arena-Hard, demostrando su capacidad para aplicar conocimientos y satisfacer las consultas de los usuarios de manera efectiva.

Capacidades Contextuales Superiores

La ventana de contexto extendida de MiniMax-Text-01 es un diferenciador clave:

  • En el benchmark Ruler, MiniMax-Text-01 funciona de manera comparable a otros modelos hasta una longitud de contexto de 64k, pero su rendimiento aumenta significativamente más allá de 128k.
  • El modelo también demuestra un rendimiento excepcional en las tareas de razonamiento de contexto largo de LongBench v2.
  • Además, las habilidades de aprendizaje de contexto largo de MiniMax-Text-01 son de última generación, como lo verificó el benchmark MTOB.

Aplicaciones en el Mundo Real

Las capacidades de MiniMax-Text-01 se extienden más allá de los benchmarks.

  • Puede generar contenido creativo, como una canción, con un lenguaje matizado y profundidad emocional.
  • Puede realizar tareas complejas como traducir un idioma menos común como Kalamang, utilizando instrucciones, gramática y vocabulario proporcionados.
  • Exhibe una excelente memoria en conversaciones largas.

MiniMax-VL-01: Un Modelo Visual-Lenguaje

Basado en MiniMax-Text-01, MiniMax desarrolló una versión multimodal, MiniMax-VL-01, que integra un codificador de imágenes y un adaptador. El modelo utiliza un ViT para la codificación visual con un proyector MLP de dos capas para la adaptación de imágenes. Este modelo se sometió a un entrenamiento continuo con datos de imagen-lenguaje utilizando un conjunto de datos propietario y una estrategia de entrenamiento multietapa.

MiniMax-VL-01 demuestra un sólido rendimiento en varios benchmarks, a menudo igualando o superando a otros modelos SOTA. Ha demostrado ser capaz de analizar datos visuales complejos, como mapas de navegación.

El Futuro de los Agentes de IA

MiniMax está superando los límites de las capacidades de la ventana de contexto, con investigaciones en curso sobre arquitecturas que podrían eliminar la atención softmax y permitir ventanas de contexto infinitas. La compañía reconoce la importancia de los modelos multimodales para los agentes de IA, ya que muchas tareas del mundo real requieren comprensión visual y textual. MiniMax tiene como objetivo crear agentes de IA que sean naturales, accesibles y ubicuos, con el potencial de interactuar con el mundo físico.