- Published on
MiniMax Svela Modello Open Source 456B Parametri 4M Contesto
MiniMax Abbraccia l'Era degli Agenti
La comunità dell'IA è in fermento con previsioni che il 2025 sarà l'anno dell'Agente IA. Leader del settore come Sam Altman di OpenAI, Mark Zuckerberg di Meta e Jensen Huang di Nvidia hanno tutti suggerito che gli Agenti IA avranno un impatto significativo sulla forza lavoro e sul panorama IT. MiniMax ha risposto a questa tendenza emergente aprendo il codice del suo ultimo modello linguistico fondamentale, MiniMax-Text-01, e del modello multimodale visivo, MiniMax-VL-01.
Innovazioni che Guidano i Modelli Open Source di MiniMax
Una delle principali innovazioni di questi nuovi modelli è l'implementazione di un nuovo meccanismo di attenzione lineare, che espande significativamente la finestra di contesto. I modelli di MiniMax possono elaborare 4 milioni di token contemporaneamente, da 20 a 32 volte in più rispetto ad altri modelli. Questo progresso è fondamentale per le applicazioni degli agenti, che richiedono finestre di contesto lunghe per gestire la memoria e la collaborazione tra più agenti.
MiniMax-Text-01 è il risultato di diverse innovazioni, tra cui:
- Lightning Attention: Una forma di attenzione lineare che riduce la complessità computazionale dell'architettura Transformer da quadratica a lineare. Ciò si ottiene attraverso un trucco del kernel del prodotto destro, che consente un calcolo più efficiente dell'attenzione.
- Hybrid-lightning: Una combinazione di Lightning Attention e attenzione softmax, in cui Lightning Attention viene sostituita con attenzione softmax ogni otto livelli. Questo approccio migliora le capacità di scalabilità mantenendo l'efficienza.
- Mixture of Experts (MoE): Rispetto ai modelli densi, i modelli MoE mostrano miglioramenti significativi delle prestazioni, soprattutto quando i carichi computazionali sono simili. MiniMax ha anche introdotto un passaggio di comunicazione allgather per prevenire il collasso del routing durante il ridimensionamento dei modelli MoE.
- Ottimizzazione Computazionale: MiniMax ha ottimizzato l'architettura MoE utilizzando uno schema di sovrapposizione basato sul raggruppamento di token per ridurre i carichi di comunicazione. Per l'addestramento a contesto lungo, hanno utilizzato una tecnica di data-packing in cui i campioni di addestramento sono collegati end-to-end lungo la dimensione della sequenza. Hanno anche adottato quattro strategie di ottimizzazione per Lightning Attention: fusione del kernel in batch, esecuzione separata di prefill e decodifica, padding multilivello ed espansione della moltiplicazione di matrici in batch con stride.
Queste innovazioni hanno portato alla creazione di un LLM da 456 miliardi di parametri con 32 esperti, dove ogni token attiva 45,9 miliardi di parametri.
Prestazioni di Benchmark di MiniMax-Text-01
MiniMax-Text-01 ha mostrato prestazioni eccellenti in diversi benchmark, rivaleggiando e persino superando modelli closed-source come GPT-4o e Claude 3.5 Sonnet, nonché modelli open-source come Qwen2.5 e Llama 3.1.
- Su HumanEval, MiniMax-Text-01 supera Instruct Qwen2.5-72B.
- Ha ottenuto un punteggio di 54,4 sul difficile dataset GPQA Diamond, superando la maggior parte degli LLM finemente sintonizzati e l'ultimo GPT-4o.
- MiniMax-Text-01 ha anche ottenuto i primi tre punteggi in MMLU, IFEval e Arena-Hard, dimostrando la sua capacità di applicare la conoscenza e soddisfare efficacemente le query degli utenti.
Capacità Contestuali Superiori
La finestra di contesto estesa di MiniMax-Text-01 è un fattore di differenziazione chiave:
- Nel benchmark Ruler, MiniMax-Text-01 si comporta in modo comparabile ad altri modelli fino a 64k di lunghezza del contesto, ma le sue prestazioni aumentano significativamente oltre 128k.
- Il modello dimostra anche prestazioni eccezionali nelle attività di ragionamento a contesto lungo di LongBench v2.
- Inoltre, le capacità di apprendimento a contesto lungo di MiniMax-Text-01 sono all'avanguardia, come verificato dal benchmark MTOB.
Applicazioni nel Mondo Reale
Le capacità di MiniMax-Text-01 si estendono oltre i benchmark.
- Può generare contenuti creativi, come una canzone, con un linguaggio sfumato e profondità emotiva.
- Può svolgere compiti complessi come la traduzione di una lingua meno comune come il Kalamang, utilizzando istruzioni, grammatica e vocabolario forniti.
- Mostra un'eccellente memoria nelle lunghe conversazioni.
MiniMax-VL-01: Un Modello Linguistico Visivo
Basato su MiniMax-Text-01, MiniMax ha sviluppato una versione multimodale, MiniMax-VL-01, che integra un encoder e un adattatore di immagini. Il modello utilizza un ViT per la codifica visiva con un proiettore MLP a due livelli per l'adattamento dell'immagine. Questo modello è stato sottoposto a un addestramento continuo con dati immagine-linguaggio utilizzando un dataset proprietario e una strategia di addestramento a più fasi.
MiniMax-VL-01 dimostra solide prestazioni in vari benchmark, spesso eguagliando o superando altri modelli SOTA. Si è dimostrato in grado di analizzare dati visivi complessi, come le mappe di navigazione.
Il Futuro degli Agenti IA
MiniMax sta spingendo i confini delle capacità della finestra di contesto, con ricerche in corso su architetture che potrebbero eliminare l'attenzione softmax e consentire finestre di contesto infinite. L'azienda riconosce l'importanza dei modelli multimodali per gli agenti IA, poiché molte attività del mondo reale richiedono una comprensione visiva e testuale. MiniMax mira a creare agenti IA che siano naturali, accessibili e onnipresenti, con il potenziale di interagire con il mondo fisico.