Published on

MiniMax, 4560억 파라미터 오픈소스 모델 공개 400만 컨텍스트 지원

저자
  • avatar
    이름
    Ajax
    Twitter

MiniMax, AI 에이전트 시대를 열다

AI 커뮤니티는 2025년을 AI 에이전트의 해로 예측하며 열띤 논의를 이어가고 있습니다. OpenAI의 샘 알트먼, Meta의 마크 저커버그, Nvidia의 젠슨 황과 같은 업계 리더들은 AI 에이전트가 노동 시장과 IT 환경에 큰 영향을 미칠 것이라고 전망했습니다. 이러한 추세에 발맞춰 MiniMax는 최신 기반 언어 모델인 MiniMax-Text-01과 시각-멀티모달 모델인 MiniMax-VL-01을 오픈소스로 공개하며 적극적으로 대응하고 있습니다.

혁신적인 컨텍스트 창 확장

이 새로운 모델들의 핵심 혁신은 컨텍스트 창을 크게 확장하는 새로운 선형 어텐션 메커니즘을 구현했다는 점입니다. MiniMax 모델은 한 번에 400만 토큰을 처리할 수 있으며, 이는 다른 모델보다 20배에서 32배 더 많은 양입니다. 이러한 발전은 여러 에이전트 간의 메모리 관리와 협업을 위해 긴 컨텍스트 창이 필요한 에이전트 애플리케이션에 매우 중요합니다.

MiniMax 오픈소스 모델의 혁신

MiniMax-Text-01은 다음과 같은 여러 혁신 기술의 결과물입니다.

  • Lightning Attention: Transformer 아키텍처의 계산 복잡성을 2차에서 선형으로 줄이는 선형 어텐션의 한 형태입니다. 이는 어텐션 계산을 보다 효율적으로 수행하는 right product kernel 트릭을 통해 달성됩니다.
  • Hybrid-lightning: Lightning Attention과 softmax 어텐션의 조합으로, 8개 레이어마다 Lightning Attention이 softmax 어텐션으로 대체됩니다. 이 접근 방식은 효율성을 유지하면서 확장 능력을 향상시킵니다.
  • Mixture of Experts (MoE): 밀집 모델에 비해 MoE 모델은 특히 계산 부하가 유사할 때 상당한 성능 향상을 보여줍니다. MiniMax는 또한 MoE 모델을 확장할 때 라우팅 붕괴를 방지하기 위해 allgather 통신 단계를 도입했습니다.
  • Computational Optimization: MiniMax는 통신 부하를 줄이기 위해 토큰 그룹 기반 오버랩 체계를 사용하여 MoE 아키텍처를 최적화했습니다. 긴 컨텍스트 학습을 위해 학습 샘플을 시퀀스 차원을 따라 엔드 투 엔드로 연결하는 데이터 패킹 기술을 사용했습니다. 또한 일괄 커널 융합, 별도의 프리필 및 디코드 실행, 다단계 패딩, 스트라이드 일괄 행렬 곱셈 확장과 같은 Lightning Attention에 대한 4가지 최적화 전략을 채택했습니다.

이러한 혁신을 통해 각 토큰이 459억 개의 파라미터를 활성화하는 32명의 전문가를 가진 4560억 파라미터 LLM이 탄생했습니다.

MiniMax-Text-01의 벤치마크 성능

MiniMax-Text-01은 여러 벤치마크에서 뛰어난 성능을 보여주었으며, GPT-4o 및 Claude 3.5 Sonnet과 같은 폐쇄 소스 모델뿐만 아니라 Qwen2.5 및 Llama 3.1과 같은 오픈 소스 모델과도 경쟁하거나 능가합니다.

  • HumanEval에서 MiniMax-Text-01은 Instruct Qwen2.5-72B를 능가합니다.
  • 까다로운 GPQA Diamond 데이터 세트에서 54.4점을 기록하여 대부분의 미세 조정된 LLM과 최신 GPT-4o를 능가했습니다.
  • MiniMax-Text-01은 MMLU, IFEval 및 Arena-Hard에서 상위 3위 점수를 기록하여 지식을 적용하고 사용자 쿼리를 효과적으로 충족하는 능력을 입증했습니다.

뛰어난 컨텍스트 기능

MiniMax-Text-01의 확장된 컨텍스트 창은 주요 차별화 요소입니다.

  • Ruler 벤치마크에서 MiniMax-Text-01은 최대 64k 컨텍스트 길이까지 다른 모델과 비슷한 성능을 보이지만, 128k를 초과하면 성능이 크게 향상됩니다.
  • 이 모델은 또한 LongBench v2의 긴 컨텍스트 추론 작업에서 뛰어난 성능을 보여줍니다.
  • 또한 MiniMax-Text-01의 긴 컨텍스트 학습 능력은 MTOB 벤치마크에서 검증된 바와 같이 최첨단 수준입니다.

실제 응용 분야

MiniMax-Text-01의 기능은 벤치마크를 넘어 확장됩니다.

  • 미묘한 언어와 감정적 깊이를 담아 노래와 같은 창의적인 콘텐츠를 생성할 수 있습니다.
  • 제공된 지침, 문법 및 어휘를 사용하여 Kalamang과 같은 덜 일반적인 언어를 번역하는 것과 같은 복잡한 작업을 수행할 수 있습니다.
  • 긴 대화에서 뛰어난 기억력을 보여줍니다.

MiniMax-VL-01: 시각 언어 모델

MiniMax는 MiniMax-Text-01을 기반으로 이미지 인코더와 어댑터를 통합한 멀티모달 버전인 MiniMax-VL-01을 개발했습니다. 이 모델은 이미지 적응을 위해 2계층 MLP 프로젝터가 있는 시각적 인코딩을 위해 ViT를 사용합니다. 이 모델은 독점 데이터 세트와 다단계 학습 전략을 사용하여 이미지-언어 데이터로 지속적인 학습을 거쳤습니다.

MiniMax-VL-01은 다양한 벤치마크에서 강력한 성능을 보여주며, 종종 다른 SOTA 모델과 일치하거나 능가합니다. 내비게이션 맵과 같은 복잡한 시각적 데이터를 분석할 수 있는 능력을 입증했습니다.

AI 에이전트의 미래

MiniMax는 softmax 어텐션을 제거하고 무한 컨텍스트 창을 가능하게 할 수 있는 아키텍처에 대한 지속적인 연구를 통해 컨텍스트 창 기능의 경계를 넓히고 있습니다. 이 회사는 많은 실제 작업에서 시각적 및 텍스트적 이해가 필요하므로 AI 에이전트에 대한 멀티모달 모델의 중요성을 인식하고 있습니다. MiniMax는 물리적 세계와 상호 작용할 수 있는 잠재력을 가진 자연스럽고 접근 가능하며 유비쿼터스 AI 에이전트를 만드는 것을 목표로 합니다.