Published on

MiniMax Revela Modelo de Código Aberto com 456B Parâmetros e Contexto de 4M

Autores
  • avatar
    Nome
    Ajax
    Twitter

MiniMax Abraça a Era dos Agentes

A comunidade de IA está em polvorosa com previsões de que 2025 será o ano do Agente de IA. Líderes da indústria como Sam Altman da OpenAI, Mark Zuckerberg da Meta e Jensen Huang da Nvidia sugeriram que os Agentes de IA terão um impacto significativo na força de trabalho e no cenário de TI. A MiniMax respondeu a esta tendência emergente ao abrir o código de seu mais recente modelo de linguagem fundamental, MiniMax-Text-01, e modelo visual-multimodal, MiniMax-VL-01.

Uma inovação chave desses novos modelos é a implementação de um novo mecanismo de atenção linear, que expande significativamente a janela de contexto. Os modelos da MiniMax podem processar 4 milhões de tokens de uma vez, o que é 20 a 32 vezes mais do que outros modelos. Este avanço é crucial para aplicações de Agente, que exigem longas janelas de contexto para gerenciar a memória e a colaboração entre vários agentes.

Inovações Impulsionando os Modelos de Código Aberto da MiniMax

O MiniMax-Text-01 é o resultado de várias inovações, incluindo:

  • Lightning Attention: Uma forma de atenção linear que reduz a complexidade computacional da arquitetura Transformer de quadrática para linear. Isso é alcançado através de um truque de kernel de produto correto, o que permite uma computação mais eficiente da atenção.

  • Hybrid-lightning: Uma combinação de Lightning Attention e atenção softmax, onde a Lightning Attention é substituída pela atenção softmax a cada oito camadas. Esta abordagem melhora as capacidades de escalonamento, mantendo a eficiência.

  • Mixture of Experts (MoE): Comparado com modelos densos, os modelos MoE mostram melhorias de desempenho significativas, especialmente quando as cargas computacionais são semelhantes. A MiniMax também introduziu uma etapa de comunicação allgather para evitar o colapso de roteamento ao dimensionar modelos MoE.

  • Otimização Computacional: A MiniMax otimizou a arquitetura MoE usando um esquema de sobreposição baseado em agrupamento de tokens para reduzir as cargas de comunicação. Para treinamento de longo contexto, eles usaram uma técnica de empacotamento de dados onde as amostras de treinamento são conectadas de ponta a ponta ao longo da dimensão da sequência. Eles também adotaram quatro estratégias de otimização para Lightning Attention: fusão de kernel em lote, execução separada de preenchimento e decodificação, preenchimento multinível e expansão de multiplicação de matriz em lote com stride.

Essas inovações levaram à criação de um LLM de 456 bilhões de parâmetros com 32 especialistas, onde cada token ativa 45,9 bilhões de parâmetros.

Desempenho de Benchmark do MiniMax-Text-01

O MiniMax-Text-01 mostrou excelente desempenho em vários benchmarks, rivalizando e até mesmo superando modelos de código fechado como GPT-4o e Claude 3.5 Sonnet, bem como modelos de código aberto como Qwen2.5 e Llama 3.1.

  • No HumanEval, o MiniMax-Text-01 supera o Instruct Qwen2.5-72B.

  • Alcançou uma pontuação de 54,4 no desafiador conjunto de dados GPQA Diamond, superando a maioria dos LLMs ajustados e o mais recente GPT-4o.

  • O MiniMax-Text-01 também alcançou as três primeiras pontuações em MMLU, IFEval e Arena-Hard, demonstrando sua capacidade de aplicar conhecimento e atender às consultas dos usuários de forma eficaz.

Capacidades Contextuais Superiores

A janela de contexto estendida do MiniMax-Text-01 é um diferenciador chave:

  • No benchmark Ruler, o MiniMax-Text-01 tem um desempenho comparável a outros modelos até um comprimento de contexto de 64k, mas seu desempenho aumenta significativamente além de 128k.

  • O modelo também demonstra desempenho excepcional em tarefas de raciocínio de longo contexto do LongBench v2.

  • Além disso, as habilidades de aprendizagem de longo contexto do MiniMax-Text-01 são de última geração, conforme verificado pelo benchmark MTOB.

Aplicações no Mundo Real

As capacidades do MiniMax-Text-01 vão além dos benchmarks.

  • Ele pode gerar conteúdo criativo, como uma música, com linguagem matizada e profundidade emocional.

  • Ele pode realizar tarefas complexas, como traduzir uma língua menos comum como Kalamang, usando instruções, gramática e vocabulário fornecidos.

  • Ele exibe excelente memória em longas conversas.

MiniMax-VL-01: Um Modelo de Linguagem Visual

Com base no MiniMax-Text-01, a MiniMax desenvolveu uma versão multimodal, MiniMax-VL-01, que integra um codificador e adaptador de imagem. O modelo usa um ViT para codificação visual com um projetor MLP de duas camadas para adaptação de imagem. Este modelo passou por treinamento contínuo com dados de imagem-linguagem usando um conjunto de dados proprietário e uma estratégia de treinamento de vários estágios.

O MiniMax-VL-01 demonstra forte desempenho em vários benchmarks, muitas vezes igualando ou excedendo outros modelos SOTA. Ele provou ser capaz de analisar dados visuais complexos, como mapas de navegação.

O Futuro dos Agentes de IA

A MiniMax está ultrapassando os limites das capacidades da janela de contexto, com pesquisas em andamento em arquiteturas que possam eliminar a atenção softmax e permitir janelas de contexto infinitas. A empresa reconhece a importância de modelos multimodais para agentes de IA, pois muitas tarefas do mundo real exigem compreensão visual e textual. A MiniMax pretende criar agentes de IA que sejam naturais, acessíveis e ubíquos, com potencial para interagir com o mundo físico.