- Published on
MiniMax Yapay Zeka Çağını Kucaklıyor 456 Milyar Parametreli Açık Kaynak Modeli
MiniMax'in Açık Kaynak Modellerindeki Yenilikler
MiniMax-Text-01, Transformer mimarisinin hesaplama karmaşıklığını azaltan doğrusal dikkat mekanizması olan Lightning Attention da dahil olmak üzere çeşitli yeniliklerin bir sonucudur. Bu, dikkat hesaplamasını daha verimli hale getiren bir sağ çarpım çekirdeği numarasıyla elde edilir.
- Hybrid-lightning: Lightning Attention ve softmax dikkat mekanizmasının bir kombinasyonu, her sekiz katmanda Lightning Attention'ın softmax ile değiştirilmesiyle ölçekleme yeteneklerini artırır.
- Uzmanlar Karışımı (MoE): Yoğun modellere kıyasla, MoE modelleri özellikle hesaplama yükleri benzer olduğunda önemli performans iyileştirmeleri gösterir. MiniMax ayrıca, MoE modellerini ölçeklendirirken yönlendirme çökmesini önlemek için bir allgather iletişim adımı tanıttı.
- Hesaplama Optimizasyonu: MiniMax, iletişim yüklerini azaltmak için bir token-gruplandırma tabanlı örtüşme şeması kullanarak MoE mimarisi için optimize etti. Uzun bağlam eğitimi için, eğitim örneklerinin dizi boyutu boyunca uçtan uca bağlandığı bir veri paketleme tekniği kullandılar. Ayrıca Lightning Attention için dört optimizasyon stratejisi benimsediler: toplu çekirdek birleştirme, ayrı ön doldurma ve kod çözme yürütme, çok seviyeli doldurma ve adımlı toplu matris çarpımı genişletme.
Bu yenilikler, her tokenin 45,9 milyar parametreyi etkinleştirdiği 32 uzmanlı 456 milyar parametreli bir LLM'nin oluşturulmasına yol açtı.
MiniMax-Text-01'in Kıyaslama Performansı
MiniMax-Text-01, GPT-4o ve Claude 3.5 Sonnet gibi kapalı kaynaklı modellerin yanı sıra Qwen2.5 ve Llama 3.1 gibi açık kaynaklı modellerle rekabet eden ve hatta onları aşan çeşitli kıyaslamalarda mükemmel performans gösterdi.
- HumanEval'de: Instruct Qwen2.5-72B'den daha iyi performans gösterdi.
- GPQA Diamond veri setinde: Çoğu ince ayarlı LLM ve en son GPT-4o'ı aşarak 54,4 puan elde etti.
- MMLU, IFEval ve Arena-Hard'da: İlk üç puanı alarak bilgi uygulama ve kullanıcı sorgularını etkili bir şekilde karşılama yeteneğini gösterdi.
Üstün Bağlamsal Yetenekler
MiniMax-Text-01'in genişletilmiş bağlam penceresi önemli bir ayırt edici özelliktir:
- Ruler kıyaslamasında: MiniMax-Text-01, 64k bağlam uzunluğuna kadar diğer modellerle karşılaştırılabilir bir performans gösterir, ancak performansı 128k'nın ötesinde önemli ölçüde artar.
- Model ayrıca, LongBench v2'nin uzun bağlamlı akıl yürütme görevlerinde olağanüstü performans göstermektedir.
- Ek olarak, MiniMax-Text-01'in uzun bağlam öğrenme yetenekleri, MTOB kıyaslamasıyla doğrulandığı üzere en üst düzeydedir.
Gerçek Dünya Uygulamaları
MiniMax-Text-01'in yetenekleri kıyaslamaların ötesine uzanır.
- Nüanslı dil ve duygusal derinliğe sahip bir şarkı gibi yaratıcı içerikler oluşturabilir.
- Sağlanan talimatları, grameri ve kelime dağarcığını kullanarak Kalamang gibi daha az yaygın bir dili çevirme gibi karmaşık görevleri gerçekleştirebilir.
- Uzun konuşmalarda mükemmel hafıza sergiler.
MiniMax-VL-01: Bir Görsel-Dil Modeli
MiniMax, MiniMax-Text-01'i temel alarak bir görüntü kodlayıcı ve adaptör entegre eden çok modlu bir versiyon olan MiniMax-VL-01'i geliştirdi. Model, görüntü uyarlaması için iki katmanlı bir MLP projektörü ile görsel kodlama için bir ViT kullanır. Bu model, tescilli bir veri seti ve çok aşamalı bir eğitim stratejisi kullanılarak görüntü-dil verileriyle sürekli eğitime tabi tutuldu.
MiniMax-VL-01, çeşitli kıyaslamalarda genellikle diğer SOTA modelleriyle eşleşen veya onları aşan güçlü performans gösterir. Navigasyon haritaları gibi karmaşık görsel verileri analiz edebileceğini kanıtlamıştır.
Yapay Zeka Ajanlarının Geleceği
MiniMax, softmax dikkatini ortadan kaldırabilecek ve sonsuz bağlam pencerelerine olanak sağlayabilecek mimariler üzerine devam eden araştırmalarla bağlam penceresi yeteneklerinin sınırlarını zorluyor. Şirket, birçok gerçek dünya görevinin görsel ve metinsel anlayış gerektirmesi nedeniyle yapay zeka ajanları için çok modlu modellerin önemini kabul ediyor. MiniMax, fiziksel dünyayla etkileşim potansiyeline sahip, doğal, erişilebilir ve her yerde bulunan yapay zeka ajanları yaratmayı amaçlıyor.