MiniMaxが4560億パラメータ400万コンテキストのオープンソースモデルを発表

MiniMax、AIエージェント時代への挑戦

AI業界では、2025年がAIエージェントの年になるとの予測が飛び交っています。OpenAIのSam Altman、MetaのMark Zuckerberg、NvidiaのJensen Huangといった業界リーダーたちは、AIエージェントが労働市場とIT環境に大きな影響を与えると示唆しています。この動向に対応し、MiniMaxは最新の基盤言語モデルMiniMax-Text-01と、視覚マルチモーダルモデルMiniMax-VL-01をオープンソースで公開しました。

革新的な技術によるモデルの進化

これらの新しいモデルの重要な革新点は、コンテキストウィンドウを大幅に拡張する新しい線形アテンションメカニズムの実装です。MiniMaxのモデルは一度に400万トークンを処理でき、これは他のモデルの20倍から32倍に相当します。この進歩は、複数のエージェント間のメモリ管理とコラボレーションに長いコンテキストウィンドウを必要とするエージェントアプリケーションにとって非常に重要です。

MiniMaxのオープンソースモデルを支えるイノベーション

MiniMax-Text-01は、以下のようないくつかのイノベーションの結果として生まれました。

Lightning Attention: Transformerアーキテクチャの計算複雑性を二次から線形に削減する線形アテンションの一形態。これは、アテンションのより効率的な計算を可能にする右積カーネルトリックによって実現されます。
Hybrid-lightning: Lightning Attentionとsoftmax attentionの組み合わせで、8層ごとにLightning Attentionがsoftmax attentionに置き換えられます。このアプローチにより、効率を維持しながらスケーリング機能が向上します。
Mixture of Experts (MoE): 密なモデルと比較して、MoEモデルは特に計算負荷が同様の場合、パフォーマンスの大幅な改善を示します。MiniMaxは、MoEモデルをスケーリングする際のルーティングの崩壊を防ぐために、allgather通信ステップも導入しました。
計算最適化: MiniMaxは、通信負荷を削減するためにトークンベースのオーバーラップスキームを使用することにより、MoEアーキテクチャを最適化しました。長文コンテキストトレーニングのために、トレーニングサンプルがシーケンス次元に沿ってエンドツーエンドで接続されるデータパッキング技術を使用しました。また、バッチカーネル融合、独立したプリフィルとデコード実行、マルチレベルパディング、ストライドバッチ行列乗算拡張という4つの最適化戦略をLightning Attentionに採用しました。

これらのイノベーションにより、各トークンが459億のパラメータをアクティブにする32の専門家を持つ、4560億パラメータのLLMが作成されました。

MiniMax-Text-01のベンチマークパフォーマンス

MiniMax-Text-01は、GPT-4oやClaude 3.5 Sonnetなどのクローズドソースモデル、およびQwen2.5やLlama 3.1などのオープンソースモデルに匹敵し、さらにはそれを上回る優れたパフォーマンスをいくつかのベンチマークで示しています。

HumanEvalでは、MiniMax-Text-01はInstruct Qwen2.5-72Bを上回っています。
難しいGPQA Diamondデータセットで54.4のスコアを達成し、ほとんどのファインチューニングされたLLMと最新のGPT-4oを上回りました。
MiniMax-Text-01は、MMLU、IFEval、およびArena-Hardでもトップ3のスコアを達成し、知識を応用してユーザーのクエリに効果的に対応する能力を示しました。

優れた文脈把握能力

MiniMax-Text-01の拡張されたコンテキストウィンドウは、重要な差別化要因です。

Rulerベンチマークでは、MiniMax-Text-01は64kまでのコンテキスト長で他のモデルと同等のパフォーマンスを発揮しますが、128kを超えるとパフォーマンスが大幅に向上します。
このモデルは、LongBench v2の長文コンテキスト推論タスクでも優れたパフォーマンスを示します。
さらに、MiniMax-Text-01の長文コンテキスト学習能力は、MTOBベンチマークによって検証されたように、最先端です。

実世界での応用

MiniMax-Text-01の機能は、ベンチマークを超えて広がります。

ニュアンスのある言語と感情的な深みを持つ歌のような創造的なコンテンツを生成できます。
提供された指示、文法、語彙を使用して、カラマン語のようなあまり一般的でない言語を翻訳するなどの複雑なタスクを実行できます。
長い会話で優れた記憶力を発揮します。

MiniMax-VL-01：視覚言語モデル

MiniMaxはMiniMax-Text-01に基づいて、画像エンコーダーとアダプターを統合したマルチモーダルバージョンであるMiniMax-VL-01を開発しました。このモデルは、画像適応のために2層のMLPプロジェクターを備えた視覚エンコーディングにViTを使用します。このモデルは、独自のデータセットと多段階トレーニング戦略を使用して、画像言語データで継続的なトレーニングを受けました。

MiniMax-VL-01は、さまざまなベンチマークで強力なパフォーマンスを示し、多くの場合、他のSOTAモデルと同等またはそれ以上のパフォーマンスを発揮します。ナビゲーションマップなどの複雑な視覚データを分析できることが証明されています。

AIエージェントの未来

MiniMaxは、ソフトマックスアテンションを排除し、無限のコンテキストウィンドウを可能にする可能性のあるアーキテクチャの研究を継続的に行い、コンテキストウィンドウ機能の限界を押し広げています。同社は、多くの現実世界のタスクが視覚的およびテキスト的理解を必要とするため、AIエージェントにとってマルチモーダルモデルが重要であることを認識しています。MiniMaxは、物理世界と対話する可能性を秘めた、自然でアクセスしやすく、ユビキタスなAIエージェントの作成を目指しています。