Published on

MiniMax enthüllt Open-Source-Modell mit 456 Milliarden Parametern und 4 Millionen Kontext

Autoren
  • avatar
    Name
    Ajax
    Twitter

MiniMax betritt das Zeitalter der Agenten

Die KI-Community ist voller Vorhersagen, dass 2025 das Jahr des KI-Agenten sein wird. Branchenführer wie Sam Altman von OpenAI, Mark Zuckerberg von Meta und Jensen Huang von Nvidia haben alle angedeutet, dass KI-Agenten erhebliche Auswirkungen auf die Arbeitswelt und die IT-Landschaft haben werden. MiniMax hat auf diesen aufkommenden Trend reagiert, indem es sein neuestes grundlegendes Sprachmodell, MiniMax-Text-01, und das visuell-multimodale Modell, MiniMax-VL-01, als Open Source veröffentlicht hat.

Innovationen hinter den Open-Source-Modellen von MiniMax

Eine wesentliche Neuerung dieser neuen Modelle ist die Implementierung eines neuartigen linearen Aufmerksamkeitsmechanismus, der den Kontextbereich erheblich erweitert. Die Modelle von MiniMax können 4 Millionen Tokens auf einmal verarbeiten, was 20 bis 32 Mal mehr ist als bei anderen Modellen. Dieser Fortschritt ist entscheidend für Agentenanwendungen, die lange Kontextbereiche benötigen, um das Gedächtnis und die Zusammenarbeit zwischen mehreren Agenten zu verwalten.

MiniMax-Text-01 ist das Ergebnis mehrerer Innovationen, darunter:

  • Lightning Attention: Eine Form der linearen Aufmerksamkeit, die die Rechenkomplexität der Transformer-Architektur von quadratisch auf linear reduziert. Dies wird durch einen Trick mit dem rechten Produktkernel erreicht, der eine effizientere Berechnung der Aufmerksamkeit ermöglicht.
  • Hybrid-Lightning: Eine Kombination aus Lightning Attention und Softmax-Aufmerksamkeit, bei der Lightning Attention alle acht Schichten durch Softmax-Aufmerksamkeit ersetzt wird. Dieser Ansatz verbessert die Skalierbarkeit bei gleichzeitiger Aufrechterhaltung der Effizienz.
  • Mixture of Experts (MoE): Im Vergleich zu dichten Modellen zeigen MoE-Modelle erhebliche Leistungsverbesserungen, insbesondere wenn die Rechenlasten ähnlich sind. MiniMax hat außerdem einen Allgather-Kommunikationsschritt eingeführt, um den Routing-Zusammenbruch bei der Skalierung von MoE-Modellen zu verhindern.
  • Rechenoptimierung: MiniMax optimierte die MoE-Architektur, indem es ein auf Token-Gruppierung basierendes Überlappungsschema verwendete, um die Kommunikationslasten zu reduzieren. Für das Training mit langem Kontext verwendeten sie eine Datenpacktechnik, bei der Trainingsbeispiele entlang der Sequenzdimension miteinander verbunden werden. Sie übernahmen auch vier Optimierungsstrategien für Lightning Attention: Batch-Kernel-Fusion, separate Prefill- und Dekodierungs-Ausführung, Multi-Level-Padding und gestreifte Batch-Matrix-Multiplikationserweiterung.

Diese Innovationen haben zur Entwicklung eines 456 Milliarden Parameter umfassenden LLM mit 32 Experten geführt, bei dem jeder Token 45,9 Milliarden Parameter aktiviert.

Benchmark-Leistung von MiniMax-Text-01

MiniMax-Text-01 hat in mehreren Benchmarks eine hervorragende Leistung gezeigt und konkurriert sogar mit Closed-Source-Modellen wie GPT-4o und Claude 3.5 Sonnet sowie mit Open-Source-Modellen wie Qwen2.5 und Llama 3.1.

  • Auf HumanEval übertrifft MiniMax-Text-01 Instruct Qwen2.5-72B.
  • Es erzielte eine Punktzahl von 54,4 im anspruchsvollen GPQA-Diamond-Datensatz und übertraf damit die meisten feinabgestimmten LLMs und das neueste GPT-4o.
  • MiniMax-Text-01 erzielte auch Top-Drei-Ergebnisse in MMLU, IFEval und Arena-Hard und demonstrierte damit seine Fähigkeit, Wissen anzuwenden und Benutzeranfragen effektiv zu erfüllen.

Überlegene kontextuelle Fähigkeiten

Der erweiterte Kontextbereich von MiniMax-Text-01 ist ein wesentliches Unterscheidungsmerkmal:

  • Im Ruler-Benchmark schneidet MiniMax-Text-01 bis zu einer Kontextlänge von 64k vergleichbar mit anderen Modellen ab, aber seine Leistung steigt deutlich über 128k.
  • Das Modell zeigt auch eine außergewöhnliche Leistung bei den Long-Context-Reasoning-Aufgaben von LongBench v2.
  • Darüber hinaus sind die Lernfähigkeiten von MiniMax-Text-01 im langen Kontext auf dem neuesten Stand der Technik, wie durch den MTOB-Benchmark bestätigt wurde.

Reale Anwendungen

Die Fähigkeiten von MiniMax-Text-01 gehen über Benchmarks hinaus.

  • Es kann kreative Inhalte wie ein Lied mit nuancierter Sprache und emotionaler Tiefe generieren.
  • Es kann komplexe Aufgaben wie die Übersetzung einer weniger verbreiteten Sprache wie Kalamang mithilfe von Anweisungen, Grammatik und Vokabular ausführen.
  • Es zeigt ein ausgezeichnetes Gedächtnis in langen Gesprächen.

MiniMax-VL-01: Ein visuelles Sprachmodell

Basierend auf MiniMax-Text-01 entwickelte MiniMax eine multimodale Version, MiniMax-VL-01, die einen Bildencoder und -adapter integriert. Das Modell verwendet einen ViT für die visuelle Kodierung mit einem zweischichtigen MLP-Projektor für die Bildanpassung. Dieses Modell wurde kontinuierlich mit Bild-Sprachdaten unter Verwendung eines proprietären Datensatzes und einer mehrstufigen Trainingsstrategie trainiert.

MiniMax-VL-01 zeigt eine starke Leistung in verschiedenen Benchmarks und erreicht oder übertrifft oft andere SOTA-Modelle. Es hat sich als fähig erwiesen, komplexe visuelle Daten wie Navigationskarten zu analysieren.

Die Zukunft der KI-Agenten

MiniMax verschiebt die Grenzen der Kontextbereichsfähigkeiten und forscht weiterhin an Architekturen, die die Softmax-Aufmerksamkeit eliminieren und unendliche Kontextbereiche ermöglichen könnten. Das Unternehmen erkennt die Bedeutung multimodaler Modelle für KI-Agenten, da viele Aufgaben in der realen Welt visuelles und textuelles Verständnis erfordern. MiniMax zielt darauf ab, KI-Agenten zu entwickeln, die natürlich, zugänglich und allgegenwärtig sind und das Potenzial haben, mit der physischen Welt zu interagieren.