Published on

MiniMax представляет открытую модель 456B параметров с контекстом 4M

Авторы
  • avatar
    Имя
    Ajax
    Twitter

MiniMax вступает в эру агентов

Сообщество ИИ полно предсказаний о том, что 2025 год станет годом ИИ-агентов. Лидеры отрасли, такие как Сэм Альтман из OpenAI, Марк Цукерберг из Meta и Дженсен Хуанг из Nvidia, заявили, что ИИ-агенты окажут значительное влияние на рабочую силу и ИТ-ландшафт. MiniMax отреагировала на эту тенденцию, открыв исходный код своей последней базовой языковой модели MiniMax-Text-01 и визуально-мультимодальной модели MiniMax-VL-01.

Ключевые инновации новых моделей

Ключевой инновацией этих новых моделей является реализация нового механизма линейного внимания, который значительно расширяет контекстное окно. Модели MiniMax могут обрабатывать 4 миллиона токенов одновременно, что в 20-32 раза больше, чем другие модели. Это достижение имеет решающее значение для приложений агентов, которым требуются длинные контекстные окна для управления памятью и взаимодействия между несколькими агентами.

Инновации, лежащие в основе моделей MiniMax с открытым исходным кодом

MiniMax-Text-01 является результатом нескольких инноваций, включая:

  • Lightning Attention: форма линейного внимания, которая снижает вычислительную сложность архитектуры Transformer с квадратичной до линейной. Это достигается с помощью трюка с ядром правого произведения, что обеспечивает более эффективное вычисление внимания.
  • Hybrid-lightning: комбинация Lightning Attention и softmax-внимания, где Lightning Attention заменяется softmax-вниманием каждые восемь слоев. Этот подход улучшает возможности масштабирования, сохраняя при этом эффективность.
  • Mixture of Experts (MoE): по сравнению с плотными моделями, модели MoE демонстрируют значительные улучшения производительности, особенно когда вычислительные нагрузки схожи. MiniMax также представила этап связи allgather для предотвращения сбоя маршрутизации при масштабировании моделей MoE.
  • Вычислительная оптимизация: MiniMax оптимизировала архитектуру MoE, используя схему перекрытия на основе группировки токенов для снижения коммуникационных нагрузок. Для обучения с длинным контекстом они использовали метод упаковки данных, где обучающие примеры соединяются конец в конец вдоль размерности последовательности. Они также приняли четыре стратегии оптимизации для Lightning Attention: слияние пакетных ядер, раздельное выполнение предварительного заполнения и декодирования, многоуровневое заполнение и расширение матричного умножения с шагом.

Эти инновации привели к созданию LLM с 456 миллиардами параметров и 32 экспертами, где каждый токен активирует 45,9 миллиарда параметров.

Эталонная производительность MiniMax-Text-01

MiniMax-Text-01 продемонстрировала отличную производительность по нескольким эталонам, соперничая и даже превосходя закрытые модели, такие как GPT-4o и Claude 3.5 Sonnet, а также модели с открытым исходным кодом, такие как Qwen2.5 и Llama 3.1.

  • На HumanEval MiniMax-Text-01 превосходит Instruct Qwen2.5-72B.
  • Она достигла оценки 54,4 в сложном наборе данных GPQA Diamond, превзойдя большинство точно настроенных LLM и новейшую GPT-4o.
  • MiniMax-Text-01 также достигла трех лучших результатов в MMLU, IFEval и Arena-Hard, демонстрируя свою способность применять знания и эффективно отвечать на запросы пользователей.

Превосходные контекстные возможности

Расширенное контекстное окно MiniMax-Text-01 является ключевым отличием:

  • В тесте Ruler MiniMax-Text-01 работает сравнимо с другими моделями при длине контекста до 64 тыс., но ее производительность значительно возрастает после 128 тыс.
  • Модель также демонстрирует исключительную производительность в задачах рассуждения с длинным контекстом LongBench v2.
  • Кроме того, возможности обучения с длинным контекстом MiniMax-Text-01 являются передовыми, что подтверждается тестом MTOB.

Реальные приложения

Возможности MiniMax-Text-01 выходят за рамки эталонов.

  • Она может генерировать креативный контент, например, песню, с тонкими языковыми и эмоциональными нюансами.
  • Она может выполнять сложные задачи, такие как перевод менее распространенного языка, например, каламанга, с использованием предоставленных инструкций, грамматики и словаря.
  • Она демонстрирует отличную память в длинных разговорах.

MiniMax-VL-01: Визуально-языковая модель

На основе MiniMax-Text-01 MiniMax разработала мультимодальную версию MiniMax-VL-01, которая объединяет кодировщик изображений и адаптер. Модель использует ViT для визуального кодирования с двухслойным проектором MLP для адаптации изображений. Эта модель прошла непрерывное обучение с использованием данных об изображениях и языке, используя собственный набор данных и многоэтапную стратегию обучения. MiniMax-VL-01 демонстрирует высокую производительность по различным эталонам, часто соответствуя или превосходя другие модели SOTA. Она доказала свою способность анализировать сложные визуальные данные, такие как навигационные карты.

Будущее ИИ-агентов

MiniMax расширяет границы возможностей контекстного окна, проводя исследования архитектур, которые могут устранить softmax-внимание и обеспечить бесконечные контекстные окна. Компания признает важность мультимодальных моделей для ИИ-агентов, поскольку многие реальные задачи требуют визуального и текстового понимания. MiniMax стремится создать ИИ-агентов, которые будут естественными, доступными и повсеместными, с потенциалом взаимодействия с физическим миром.