Published on

MiniMax представя нов модел с отворен код 456B параметри и 4M контекст

Автори
  • avatar
    Име
    Ajax
    Twitter

MiniMax навлиза в ерата на агентите

Общността на изкуствения интелект е развълнувана от прогнозите, че 2025 година ще бъде годината на AI агентите. Лидери в индустрията като Sam Altman от OpenAI, Mark Zuckerberg от Meta и Jensen Huang от Nvidia предполагат, че AI агентите ще повлияят значително на работната сила и ИТ пейзажа. MiniMax отговори на тази нововъзникваща тенденция, като пусна с отворен код своя най-нов основен езиков модел, MiniMax-Text-01, и визуален мултимодален модел, MiniMax-VL-01.

Ключова иновация в тези нови модели е внедряването на нов механизъм за линейно внимание, който значително разширява контекстното прозореца. Моделите на MiniMax могат да обработват 4 милиона токена наведнъж, което е 20 до 32 пъти повече от други модели. Това постижение е от решаващо значение за приложенията на агентите, които изискват дълги контекстни прозорци за управление на паметта и сътрудничество между множество агенти.

Иновации, движещи моделите с отворен код на MiniMax

MiniMax-Text-01 е резултат от няколко иновации, включително:

  • Lightning Attention: Форма на линейно внимание, която намалява изчислителната сложност на архитектурата Transformer от квадратична до линейна. Това се постига чрез трик с дясно произведение на ядрото, което позволява по-ефективно изчисление на вниманието.
  • Hybrid-lightning: Комбинация от Lightning Attention и softmax внимание, където Lightning Attention се заменя със softmax внимание на всеки осем слоя. Този подход подобрява възможностите за мащабиране, като същевременно поддържа ефективност.
  • Mixture of Experts (MoE): В сравнение с плътните модели, MoE моделите показват значителни подобрения в производителността, особено когато изчислителните натоварвания са сходни. MiniMax също въведе стъпка за комуникация allgather, за да предотврати срив на маршрутизацията при мащабиране на MoE модели.
  • Изчислителна оптимизация: MiniMax оптимизира за MoE архитектура, като използва схема за припокриване, базирана на групиране на токени, за да намали комуникационните натоварвания. За обучение с дълъг контекст те използват техника за пакетиране на данни, където тренировъчните проби са свързани от край до край по измерението на последователността. Те също така приеха четири стратегии за оптимизация за Lightning Attention: обединено ядро, отделно изпълнение на предварително запълване и декодиране, многостепенно запълване и разширяване на базовата матрица.

Тези иновации доведоха до създаването на LLM с 456 милиарда параметъра с 32 експерта, където всеки токен активира 45,9 милиарда параметъра.

Бенчмарк производителност на MiniMax-Text-01

MiniMax-Text-01 показа отлична производителност на няколко бенчмарка, конкурирайки се и дори надминавайки затворени модели като GPT-4o и Claude 3.5 Sonnet, както и модели с отворен код като Qwen2.5 и Llama 3.1.

  • На HumanEval, MiniMax-Text-01 надминава Instruct Qwen2.5-72B.
  • Той постигна резултат от 54,4 на предизвикателния набор от данни GPQA Diamond, надминавайки повечето фино настроени LLM и най-новия GPT-4o.
  • MiniMax-Text-01 също постигна първите три резултата в MMLU, IFEval и Arena-Hard, демонстрирайки способността си да прилага знания и да отговаря ефективно на потребителски заявки.

Превъзходни контекстни възможности

Разширеният контекстен прозорец на MiniMax-Text-01 е ключов диференциатор:

  • В бенчмарка Ruler, MiniMax-Text-01 се представя сравним с други модели до 64k дължина на контекста, но производителността му значително се увеличава след 128k.
  • Моделът също така демонстрира изключителна производителност в задачите за разсъждения с дълъг контекст на LongBench v2.
  • Освен това, възможностите за обучение с дълъг контекст на MiniMax-Text-01 са най-съвременни, както е потвърдено от бенчмарка MTOB.

Приложения в реалния свят

Възможностите на MiniMax-Text-01 се простират отвъд бенчмарковете.

  • Той може да генерира творческо съдържание, като например песен, с нюансиран език и емоционална дълбочина.
  • Той може да изпълнява сложни задачи като превод на по-рядко срещан език като Kalamang, използвайки предоставени инструкции, граматика и речник.
  • Той проявява отлична памет в дълги разговори.

MiniMax-VL-01: Модел за визуално-езиково разбиране

Въз основа на MiniMax-Text-01, MiniMax разработи мултимодална версия, MiniMax-VL-01, която интегрира кодировчик и адаптер на изображения. Моделът използва ViT за визуално кодиране с двуслоен MLP проектор за адаптиране на изображения. Този модел е подложен на непрекъснато обучение с данни за изображения и език, използвайки собствен набор от данни и многостепенна стратегия за обучение.

MiniMax-VL-01 демонстрира силна производителност на различни бенчмаркове, често съвпадайки или надхвърляйки други SOTA модели. Той се е доказал като способен да анализира сложни визуални данни, като например навигационни карти.

Бъдещето на AI агентите

MiniMax разширява границите на възможностите на контекстното прозореца, с текущи изследвания на архитектури, които биха могли да елиминират softmax вниманието и да позволят безкрайни контекстни прозорци. Компанията признава важността на мултимодалните модели за AI агенти, тъй като много задачи от реалния свят изискват визуално и текстово разбиране. MiniMax се стреми да създаде AI агенти, които са естествени, достъпни и повсеместни, с потенциал да взаимодействат с физическия свят.