Published on

MiniMax Mengungkap Model Open-Source 456B Parameter dengan Konteks 4 Juta Token

Penulis
  • avatar
    Nama
    Ajax
    Twitter

MiniMax Merangkul Era Agen AI

Komunitas AI sedang ramai dengan prediksi bahwa tahun 2025 akan menjadi tahun Agen AI. Pemimpin industri seperti Sam Altman dari OpenAI, Mark Zuckerberg dari Meta, dan Jensen Huang dari Nvidia telah mengisyaratkan bahwa Agen AI akan berdampak signifikan pada tenaga kerja dan lanskap TI. MiniMax telah menanggapi tren yang muncul ini dengan membuka sumber model bahasa dasar terbarunya, MiniMax-Text-01, dan model visual-multimodal, MiniMax-VL-01.

Inovasi utama dari model-model baru ini adalah implementasi mekanisme perhatian linier baru, yang secara signifikan memperluas jendela konteks. Model MiniMax dapat memproses 4 juta token sekaligus, yang 20 hingga 32 kali lebih banyak dari model lain. Kemajuan ini sangat penting untuk aplikasi Agen, yang membutuhkan jendela konteks yang panjang untuk mengelola memori dan kolaborasi antara beberapa agen.

Inovasi yang Mendorong Model Open-Source MiniMax

MiniMax-Text-01 adalah hasil dari beberapa inovasi, termasuk:

  • Lightning Attention: Bentuk perhatian linier yang mengurangi kompleksitas komputasi arsitektur Transformer dari kuadratik menjadi linier. Ini dicapai melalui trik kernel produk kanan, yang memungkinkan perhitungan perhatian yang lebih efisien.
  • Hybrid-lightning: Kombinasi dari Lightning Attention dan perhatian softmax, di mana Lightning Attention diganti dengan perhatian softmax setiap delapan lapisan. Pendekatan ini meningkatkan kemampuan penskalaan sambil mempertahankan efisiensi.
  • Mixture of Experts (MoE): Dibandingkan dengan model padat, model MoE menunjukkan peningkatan kinerja yang signifikan, terutama ketika beban komputasi serupa. MiniMax juga memperkenalkan langkah komunikasi allgather untuk mencegah keruntuhan routing saat menskalakan model MoE.
  • Optimalisasi Komputasi: MiniMax dioptimalkan untuk arsitektur MoE dengan menggunakan skema tumpang tindih berbasis pengelompokan token untuk mengurangi beban komunikasi. Untuk pelatihan konteks panjang, mereka menggunakan teknik pengemasan data di mana sampel pelatihan dihubungkan ujung ke ujung sepanjang dimensi urutan. Mereka juga mengadopsi empat strategi optimalisasi untuk Lightning Attention: fusi kernel batch, eksekusi prefill dan decode terpisah, padding multi-level, dan ekspansi perkalian matriks batch berstrata.

Inovasi-inovasi ini telah menghasilkan terciptanya LLM 456 miliar parameter dengan 32 ahli, di mana setiap token mengaktifkan 45,9 miliar parameter.

Performa Tolok Ukur MiniMax-Text-01

MiniMax-Text-01 telah menunjukkan kinerja yang sangat baik pada beberapa tolok ukur, menyaingi dan bahkan melampaui model sumber tertutup seperti GPT-4o dan Claude 3.5 Sonnet, serta model sumber terbuka seperti Qwen2.5 dan Llama 3.1.

  • Pada HumanEval, MiniMax-Text-01 mengungguli Instruct Qwen2.5-72B.
  • Model ini mencapai skor 54,4 pada dataset GPQA Diamond yang menantang, melampaui sebagian besar LLM yang disetel halus dan GPT-4o terbaru.
  • MiniMax-Text-01 juga mencapai skor tiga teratas di MMLU, IFEval, dan Arena-Hard, menunjukkan kemampuannya untuk menerapkan pengetahuan dan memenuhi permintaan pengguna secara efektif.

Kemampuan Kontekstual Unggul

Jendela konteks yang diperluas dari MiniMax-Text-01 adalah pembeda utama:

  • Dalam tolok ukur Ruler, MiniMax-Text-01 berkinerja sebanding dengan model lain hingga panjang konteks 64k, tetapi kinerjanya meningkat secara signifikan di atas 128k.
  • Model ini juga menunjukkan kinerja yang luar biasa dalam tugas penalaran konteks panjang LongBench v2.
  • Selain itu, kemampuan pembelajaran konteks panjang MiniMax-Text-01 adalah yang tercanggih, seperti yang diverifikasi oleh tolok ukur MTOB.

Aplikasi Dunia Nyata

Kemampuan MiniMax-Text-01 melampaui tolok ukur.

  • Dapat menghasilkan konten kreatif, seperti lagu, dengan bahasa yang bernuansa dan kedalaman emosional.
  • Dapat melakukan tugas-tugas kompleks seperti menerjemahkan bahasa yang kurang umum seperti Kalamang, menggunakan instruksi, tata bahasa, dan kosakata yang diberikan.
  • Menunjukkan memori yang sangat baik dalam percakapan panjang.

MiniMax-VL-01: Model Visual-Bahasa

Berdasarkan MiniMax-Text-01, MiniMax mengembangkan versi multimodal, MiniMax-VL-01, yang mengintegrasikan encoder dan adapter gambar. Model ini menggunakan ViT untuk pengkodean visual dengan proyektor MLP dua lapis untuk adaptasi gambar. Model ini menjalani pelatihan berkelanjutan dengan data gambar-bahasa menggunakan dataset eksklusif dan strategi pelatihan multi-tahap.

MiniMax-VL-01 menunjukkan kinerja yang kuat pada berbagai tolok ukur, sering kali menyamai atau melampaui model SOTA lainnya. Telah terbukti mampu menganalisis data visual yang kompleks, seperti peta navigasi.

Masa Depan Agen AI

MiniMax mendorong batas kemampuan jendela konteks, dengan penelitian berkelanjutan ke dalam arsitektur yang mungkin menghilangkan perhatian softmax dan memungkinkan jendela konteks tak terbatas. Perusahaan mengakui pentingnya model multimodal untuk agen AI, karena banyak tugas dunia nyata membutuhkan pemahaman visual dan tekstual. MiniMax bertujuan untuk menciptakan agen AI yang alami, mudah diakses, dan ada di mana-mana, dengan potensi untuk berinteraksi dengan dunia fisik.