- Publié le
MiniMax dévoile un modèle open source de 456B paramètres avec un contexte de 4M
MiniMax embrasse l'ère des agents
La communauté de l'IA est en effervescence avec les prédictions selon lesquelles 2025 sera l'année de l'Agent IA. Des leaders de l'industrie tels que Sam Altman d'OpenAI, Mark Zuckerberg de Meta et Jensen Huang de Nvidia ont tous suggéré que les Agents IA auront un impact significatif sur la main-d'œuvre et le paysage informatique. MiniMax a répondu à cette tendance émergente en ouvrant son dernier modèle de langage fondamental, MiniMax-Text-01, et son modèle visuel-multimodal, MiniMax-VL-01.
Innovations au cœur des modèles open source de MiniMax
Une innovation clé de ces nouveaux modèles est la mise en œuvre d'un nouveau mécanisme d'attention linéaire, qui élargit considérablement la fenêtre de contexte. Les modèles de MiniMax peuvent traiter 4 millions de tokens à la fois, soit 20 à 32 fois plus que les autres modèles. Cette avancée est cruciale pour les applications d'agents, qui nécessitent de longues fenêtres de contexte pour gérer la mémoire et la collaboration entre plusieurs agents.
MiniMax-Text-01 : Une série d'innovations
MiniMax-Text-01 est le résultat de plusieurs innovations :
- Lightning Attention : Une forme d'attention linéaire qui réduit la complexité computationnelle de l'architecture Transformer de quadratique à linéaire. Ceci est réalisé grâce à une astuce de noyau de produit droit, qui permet un calcul plus efficace de l'attention.
- Hybrid-lightning : Une combinaison de Lightning Attention et d'attention softmax, où Lightning Attention est remplacée par l'attention softmax tous les huit niveaux. Cette approche améliore les capacités de mise à l'échelle tout en maintenant l'efficacité.
- Mixture of Experts (MoE) : Par rapport aux modèles denses, les modèles MoE montrent des améliorations significatives des performances, en particulier lorsque les charges de calcul sont similaires. MiniMax a également introduit une étape de communication allgather pour éviter l'effondrement du routage lors de la mise à l'échelle des modèles MoE.
- Optimisation computationnelle : MiniMax a optimisé l'architecture MoE en utilisant un schéma de chevauchement basé sur le regroupement de tokens pour réduire les charges de communication. Pour l'entraînement en contexte long, ils ont utilisé une technique d'emballage de données où les échantillons d'entraînement sont connectés bout à bout le long de la dimension de la séquence. Ils ont également adopté quatre stratégies d'optimisation pour Lightning Attention : fusion de noyau par lots, exécution séparée du préremplissage et du décodage, remplissage multi-niveaux et expansion de la multiplication matricielle par lots.
Ces innovations ont conduit à la création d'un LLM de 456 milliards de paramètres avec 32 experts, où chaque token active 45,9 milliards de paramètres.
Performances de référence de MiniMax-Text-01
MiniMax-Text-01 a montré d'excellentes performances sur plusieurs benchmarks, rivalisant et même surpassant les modèles à source fermée tels que GPT-4o et Claude 3.5 Sonnet, ainsi que les modèles open source tels que Qwen2.5 et Llama 3.1.
- Sur HumanEval, MiniMax-Text-01 surpasse Instruct Qwen2.5-72B.
- Il a obtenu un score de 54,4 sur l'ensemble de données difficile GPQA Diamond, surpassant la plupart des LLM affinés et le dernier GPT-4o.
- MiniMax-Text-01 a également obtenu les trois meilleurs scores dans MMLU, IFEval et Arena-Hard, démontrant sa capacité à appliquer des connaissances et à répondre efficacement aux requêtes des utilisateurs.
Capacités contextuelles supérieures
La fenêtre de contexte étendue de MiniMax-Text-01 est un élément de différenciation clé :
- Dans le benchmark Ruler, MiniMax-Text-01 fonctionne de manière comparable aux autres modèles jusqu'à une longueur de contexte de 64k, mais ses performances augmentent considérablement au-delà de 128k.
- Le modèle démontre également des performances exceptionnelles dans les tâches de raisonnement en contexte long de LongBench v2.
- De plus, les capacités d'apprentissage en contexte long de MiniMax-Text-01 sont à la pointe de la technologie, comme le vérifie le benchmark MTOB.
Applications concrètes
Les capacités de MiniMax-Text-01 s'étendent au-delà des benchmarks.
- Il peut générer du contenu créatif, tel qu'une chanson, avec un langage nuancé et une profondeur émotionnelle.
- Il peut effectuer des tâches complexes telles que la traduction d'une langue moins courante comme le Kalamang, en utilisant les instructions, la grammaire et le vocabulaire fournis.
- Il présente une excellente mémoire dans les longues conversations.
MiniMax-VL-01 : Un modèle visuel-linguistique
Basé sur MiniMax-Text-01, MiniMax a développé une version multimodale, MiniMax-VL-01, qui intègre un encodeur et un adaptateur d'image. Le modèle utilise un ViT pour l'encodage visuel avec un projecteur MLP à deux niveaux pour l'adaptation de l'image. Ce modèle a subi un entraînement continu avec des données image-langage en utilisant un ensemble de données propriétaire et une stratégie d'entraînement multi-étapes.
MiniMax-VL-01 démontre de solides performances sur divers benchmarks, égalant ou dépassant souvent d'autres modèles SOTA. Il s'est avéré capable d'analyser des données visuelles complexes, telles que des cartes de navigation.
L'avenir des agents IA
MiniMax repousse les limites des capacités de la fenêtre contextuelle, avec des recherches en cours sur des architectures qui pourraient éliminer l'attention softmax et permettre des fenêtres contextuelles infinies. L'entreprise reconnaît l'importance des modèles multimodaux pour les agents IA, car de nombreuses tâches du monde réel nécessitent une compréhension visuelle et textuelle. MiniMax vise à créer des agents IA naturels, accessibles et omniprésents, avec le potentiel d'interagir avec le monde physique.