- Published on
MiniMax prezentuje model open-source 456B z kontekstem 4M
MiniMax Wkracza w Erę Agentów
Społeczność AI jest pełna przewidywań, że rok 2025 będzie rokiem agentów AI. Liderzy branży, tacy jak Sam Altman z OpenAI, Mark Zuckerberg z Meta i Jensen Huang z Nvidii, sugerują, że agenci AI znacząco wpłyną na siłę roboczą i krajobraz IT. MiniMax odpowiedział na ten trend, udostępniając swoje najnowsze fundamentalne modele językowe, MiniMax-Text-01 i wizualno-multimodalne, MiniMax-VL-01, jako open source.
Kluczową innowacją tych nowych modeli jest implementacja nowatorskiego mechanizmu liniowej uwagi, który znacznie rozszerza okno kontekstowe. Modele MiniMaxa mogą przetwarzać 4 miliony tokenów na raz, co jest od 20 do 32 razy więcej niż inne modele. To osiągnięcie ma kluczowe znaczenie dla aplikacji agentów, które wymagają długich okien kontekstowych do zarządzania pamięcią i współpracy między wieloma agentami.
Innowacje Napędzające Modele Open-Source MiniMaxa
MiniMax-Text-01 jest wynikiem kilku innowacji, w tym:
- Lightning Attention: Forma liniowej uwagi, która redukuje złożoność obliczeniową architektury Transformer z kwadratowej do liniowej. Osiąga się to poprzez sztuczkę z jądrem iloczynu prawostronnego, co pozwala na bardziej efektywne obliczanie uwagi.
- Hybrid-lightning: Połączenie Lightning Attention i uwagi softmax, gdzie Lightning Attention jest zastępowana uwagą softmax co osiem warstw. Takie podejście poprawia skalowalność przy zachowaniu wydajności.
- Mixture of Experts (MoE): W porównaniu do modeli gęstych, modele MoE wykazują znaczną poprawę wydajności, szczególnie gdy obciążenia obliczeniowe są podobne. MiniMax wprowadził również krok komunikacji allgather, aby zapobiec załamaniu routingu podczas skalowania modeli MoE.
- Optymalizacja Obliczeniowa: MiniMax zoptymalizował architekturę MoE, wykorzystując schemat nakładania się oparty na grupowaniu tokenów, aby zmniejszyć obciążenie komunikacyjne. Do treningu długiego kontekstu zastosowali technikę pakowania danych, w której próbki treningowe są łączone koniec do końca wzdłuż wymiaru sekwencji. Zastosowali również cztery strategie optymalizacji dla Lightning Attention: fuzję jądra wsadowego, oddzielne wykonywanie prefill i decode, wielopoziomowe uzupełnianie i rozszerzenie macierzy strided batched.
Te innowacje doprowadziły do stworzenia 456-miliardowego parametru LLM z 32 ekspertami, gdzie każdy token aktywuje 45,9 miliarda parametrów.
Wydajność MiniMax-Text-01 w Testach Porównawczych
MiniMax-Text-01 wykazał doskonałą wydajność w kilku testach porównawczych, rywalizując, a nawet przewyższając zamknięte modele, takie jak GPT-4o i Claude 3.5 Sonnet, a także modele open source, takie jak Qwen2.5 i Llama 3.1.
- Na HumanEval MiniMax-Text-01 przewyższa Instruct Qwen2.5-72B.
- Osiągnął wynik 54,4 w trudnym zestawie danych GPQA Diamond, przewyższając większość precyzyjnie dostrojonych LLM i najnowszy GPT-4o.
- MiniMax-Text-01 osiągnął również trzy najlepsze wyniki w MMLU, IFEval i Arena-Hard, demonstrując swoją zdolność do stosowania wiedzy i skutecznego odpowiadania na zapytania użytkowników.
Doskonałe Możliwości Kontekstowe
Rozszerzone okno kontekstowe MiniMax-Text-01 jest kluczowym wyróżnikiem:
- W teście Ruler MiniMax-Text-01 wypada porównywalnie z innymi modelami do długości kontekstu 64k, ale jego wydajność znacznie wzrasta powyżej 128k.
- Model wykazuje również wyjątkową wydajność w zadaniach długiego rozumowania kontekstowego LongBench v2.
- Ponadto zdolności uczenia się długiego kontekstu MiniMax-Text-01 są najnowocześniejsze, co zostało zweryfikowane przez test MTOB.
Zastosowania w Świecie Rzeczywistym
Możliwości MiniMax-Text-01 wykraczają poza testy porównawcze.
- Potrafi generować kreatywne treści, takie jak piosenka, z niuansami językowymi i emocjonalną głębią.
- Może wykonywać złożone zadania, takie jak tłumaczenie mniej popularnego języka, takiego jak Kalamang, przy użyciu dostarczonych instrukcji, gramatyki i słownictwa.
- Wykazuje doskonałą pamięć w długich rozmowach.
MiniMax-VL-01: Model Wizualno-Językowy
W oparciu o MiniMax-Text-01, MiniMax opracował wersję multimodalną, MiniMax-VL-01, która integruje koder obrazu i adapter. Model wykorzystuje ViT do kodowania wizualnego z dwuwarstwowym projektorem MLP do adaptacji obrazu. Model ten przeszedł ciągłe szkolenie z danymi obraz-język przy użyciu zastrzeżonego zbioru danych i wieloetapowej strategii szkoleniowej.
MiniMax-VL-01 wykazuje silną wydajność w różnych testach porównawczych, często dorównując lub przewyższając inne modele SOTA. Udowodnił swoją zdolność do analizowania złożonych danych wizualnych, takich jak mapy nawigacyjne.
Przyszłość Agentów AI
MiniMax przesuwa granice możliwości okna kontekstowego, prowadząc badania nad architekturami, które mogą wyeliminować uwagę softmax i umożliwić nieskończone okna kontekstowe. Firma dostrzega znaczenie modeli multimodalnych dla agentów AI, ponieważ wiele rzeczywistych zadań wymaga rozumienia wizualnego i tekstowego. MiniMax dąży do stworzenia agentów AI, którzy są naturalni, dostępni i wszechobecni, z potencjałem do interakcji ze światem fizycznym.