- Published on
MiniMax Onthult Open-Source Model met 456 miljard parameters en 4M context
MiniMax omarmt het tijdperk van de agenten
De AI-gemeenschap is vol van voorspellingen dat 2025 het jaar van de AI-agent zal zijn. Marktleiders zoals Sam Altman van OpenAI, Mark Zuckerberg van Meta en Jensen Huang van Nvidia hebben allemaal gesuggereerd dat AI-agenten een aanzienlijke impact zullen hebben op het personeelsbestand en het IT-landschap. MiniMax heeft op deze opkomende trend gereageerd door zijn nieuwste fundamentele taalmodel, MiniMax-Text-01, en visueel-multimodaal model, MiniMax-VL-01, open-source te maken.
Een belangrijke innovatie van deze nieuwe modellen is de implementatie van een nieuw lineair aandachtsmechanisme, dat het contextvenster aanzienlijk vergroot. De modellen van MiniMax kunnen 4 miljoen tokens tegelijk verwerken, wat 20 tot 32 keer meer is dan andere modellen. Deze vooruitgang is cruciaal voor agenttoepassingen, die lange contextvensters vereisen om het geheugen en de samenwerking tussen meerdere agenten te beheren.
Innovaties die de open-source modellen van MiniMax stimuleren
MiniMax-Text-01 is het resultaat van verschillende innovaties, waaronder:
- Lightning Attention: Een vorm van lineaire aandacht die de computationele complexiteit van de Transformer-architectuur reduceert van kwadratisch naar lineair. Dit wordt bereikt door middel van een right product kernel trick, wat een efficiëntere berekening van de aandacht mogelijk maakt.
- Hybrid-lightning: Een combinatie van Lightning Attention en softmax-aandacht, waarbij Lightning Attention elke acht lagen wordt vervangen door softmax-aandacht. Deze aanpak verbetert de schaalmogelijkheden met behoud van efficiëntie.
- Mixture of Experts (MoE): In vergelijking met dense modellen vertonen MoE-modellen aanzienlijke prestatieverbeteringen, vooral wanneer de computationele belasting vergelijkbaar is. MiniMax introduceerde ook een allgather communicatiestap om het instorten van de routing te voorkomen bij het schalen van MoE-modellen.
- Computationele optimalisatie: MiniMax optimaliseerde voor de MoE-architectuur door een token-grouping based overlap scheme te gebruiken om de communicatiebelasting te verminderen. Voor training met lange context gebruikten ze een data-packing techniek waarbij trainingssamples end-to-end langs de sequentiedimensie worden verbonden. Ze hebben ook vier optimalisatiestrategieën voor Lightning Attention toegepast: batched kernel fusion, aparte prefill and decode uitvoering, multi-level padding en strided batched matrix multiplication expansion.
Deze innovaties hebben geleid tot de creatie van een LLM met 456 miljard parameters met 32 experts, waarbij elk token 45,9 miljard parameters activeert.
Benchmarkprestaties van MiniMax-Text-01
MiniMax-Text-01 heeft uitstekende prestaties laten zien op verschillende benchmarks, die concurreren met en zelfs beter presteren dan gesloten-source modellen zoals GPT-4o en Claude 3.5 Sonnet, evenals open-source modellen zoals Qwen2.5 en Llama 3.1.
- Op HumanEval presteert MiniMax-Text-01 beter dan Instruct Qwen2.5-72B.
- Het behaalde een score van 54,4 op de uitdagende GPQA Diamond dataset, waarmee het de meeste fine-tuned LLM's en de nieuwste GPT-4o overtrof.
- MiniMax-Text-01 behaalde ook top-drie scores in MMLU, IFEval en Arena-Hard, wat zijn vermogen aantoont om kennis toe te passen en effectief aan gebruikersvragen te voldoen.
Superieure contextuele mogelijkheden
Het uitgebreide contextvenster van MiniMax-Text-01 is een belangrijk onderscheidend vermogen:
- In de Ruler-benchmark presteert MiniMax-Text-01 vergelijkbaar met andere modellen tot een contextlengte van 64k, maar zijn prestaties nemen aanzienlijk toe boven 128k.
- Het model toont ook uitzonderlijke prestaties in de long-context redeneertaken van LongBench v2.
- Bovendien zijn de long-context leermogelijkheden van MiniMax-Text-01 state-of-the-art, zoals geverifieerd door de MTOB-benchmark.
Toepassingen in de echte wereld
De mogelijkheden van MiniMax-Text-01 reiken verder dan benchmarks.
- Het kan creatieve inhoud genereren, zoals een lied, met genuanceerde taal en emotionele diepte.
- Het kan complexe taken uitvoeren, zoals het vertalen van een minder gebruikelijke taal zoals Kalamang, met behulp van verstrekte instructies, grammatica en woordenschat.
- Het vertoont een uitstekend geheugen in lange gesprekken.
MiniMax-VL-01: Een visueel-taalmodel
Gebaseerd op MiniMax-Text-01 ontwikkelde MiniMax een multimodale versie, MiniMax-VL-01, die een image encoder en adapter integreert. Het model gebruikt een ViT voor visuele codering met een two-layer MLP projector voor beeldaanpassing. Dit model onderging continue training met beeld-taaldata met behulp van een eigen dataset en een multi-stage trainingsstrategie.
MiniMax-VL-01 toont sterke prestaties op verschillende benchmarks, vaak overeenkomend met of overtreffend andere SOTA-modellen. Het heeft bewezen in staat te zijn om complexe visuele gegevens te analyseren, zoals navigatiekaarten.
De toekomst van AI-agenten
MiniMax verlegt de grenzen van de mogelijkheden van het contextvenster, met voortdurend onderzoek naar architecturen die softmax aandacht zouden kunnen elimineren en oneindige contextvensters mogelijk zouden maken. Het bedrijf erkent het belang van multimodale modellen voor AI-agenten, aangezien veel taken in de echte wereld visueel en tekstueel begrip vereisen. MiniMax streeft ernaar AI-agenten te creëren die natuurlijk, toegankelijk en alomtegenwoordig zijn, met het potentieel om met de fysieke wereld te interageren.