- Published on
MiniMax เปิดตัวโมเดลโอเพนซอร์ส 456B พารามิเตอร์ รองรับ 4M Context
MiniMax ก้าวสู่ยุคแห่ง AI Agent
วงการ AI กำลังคาดการณ์ว่าปี 2025 จะเป็นปีแห่ง AI Agent ผู้นำในอุตสาหกรรมอย่าง Sam Altman จาก OpenAI, Mark Zuckerberg จาก Meta และ Jensen Huang จาก Nvidia ต่างเห็นพ้องกันว่า AI Agent จะมีผลกระทบอย่างมากต่อตลาดแรงงานและภูมิทัศน์ด้าน IT MiniMax ตอบสนองต่อแนวโน้มนี้ด้วยการเปิดตัวโมเดลภาษาพื้นฐานล่าสุด MiniMax-Text-01 และโมเดลภาพมัลติโมดอล MiniMax-VL-01 ในรูปแบบโอเพนซอร์ส
นวัตกรรมที่ขับเคลื่อนโมเดลโอเพนซอร์สของ MiniMax
นวัตกรรมที่สำคัญของโมเดลใหม่เหล่านี้คือการนำกลไก Linear Attention แบบใหม่มาใช้ ซึ่งช่วยขยาย Context Window ได้อย่างมาก โมเดลของ MiniMax สามารถประมวลผลได้ 4 ล้านโทเค็นพร้อมกัน ซึ่งมากกว่าโมเดลอื่นๆ ถึง 20 ถึง 32 เท่า ความก้าวหน้านี้มีความสำคัญอย่างยิ่งสำหรับการใช้งาน Agent ซึ่งต้องการ Context Window ที่ยาวนานเพื่อจัดการหน่วยความจำและการทำงานร่วมกันระหว่าง Agent หลายตัว
MiniMax-Text-01: โมเดลภาษาที่ล้ำสมัย
MiniMax-Text-01 เป็นผลมาจากนวัตกรรมหลายประการ ได้แก่:
Lightning Attention: รูปแบบของ Linear Attention ที่ลดความซับซ้อนในการคำนวณของสถาปัตยกรรม Transformer จาก Quadratic เป็น Linear ทำได้โดยใช้เทคนิค Right Product Kernel ซึ่งช่วยให้การคำนวณ Attention มีประสิทธิภาพมากขึ้น
Hybrid-lightning: การผสมผสานระหว่าง Lightning Attention และ Softmax Attention โดย Lightning Attention จะถูกแทนที่ด้วย Softmax Attention ทุกๆ 8 เลเยอร์ วิธีนี้ช่วยปรับปรุงความสามารถในการปรับขนาดในขณะที่ยังคงประสิทธิภาพไว้
Mixture of Experts (MoE): เมื่อเทียบกับโมเดล Dense โมเดล MoE แสดงให้เห็นถึงประสิทธิภาพที่ดีขึ้นอย่างมาก โดยเฉพาะอย่างยิ่งเมื่อภาระการคำนวณใกล้เคียงกัน MiniMax ยังได้นำขั้นตอนการสื่อสาร Allgather มาใช้เพื่อป้องกันการล่มสลายของการกำหนดเส้นทางเมื่อปรับขนาดโมเดล MoE
Computational Optimization: MiniMax ปรับปรุงประสิทธิภาพสำหรับสถาปัตยกรรม MoE โดยใช้โครงร่าง Token-Grouping Based Overlap เพื่อลดภาระการสื่อสาร สำหรับการฝึกอบรม Context ที่ยาวนาน พวกเขาใช้เทคนิค Data-Packing โดยที่ตัวอย่างการฝึกอบรมจะเชื่อมต่อแบบ End-to-End ตามมิติของลำดับ นอกจากนี้ พวกเขายังใช้กลยุทธ์การเพิ่มประสิทธิภาพสี่ประการสำหรับ Lightning Attention: Batched Kernel Fusion, Separate Prefill and Decode Execution, Multi-level Padding และ Strided Batched Matrix Multiplication Expansion
นวัตกรรมเหล่านี้ได้นำไปสู่การสร้าง LLM ขนาด 456 พันล้านพารามิเตอร์ พร้อมผู้เชี่ยวชาญ 32 คน โดยแต่ละโทเค็นจะเปิดใช้งาน 45.9 พันล้านพารามิเตอร์
ประสิทธิภาพของ MiniMax-Text-01 ในการวัดผล
MiniMax-Text-01 แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในการวัดผลหลายรายการ โดยเทียบเคียงได้และเหนือกว่าโมเดล Closed-Source อย่าง GPT-4o และ Claude 3.5 Sonnet รวมถึงโมเดล Open-Source อย่าง Qwen2.5 และ Llama 3.1 อีกด้วย
- ใน HumanEval, MiniMax-Text-01 มีประสิทธิภาพเหนือกว่า Instruct Qwen2.5-72B
- ทำคะแนนได้ 54.4 ในชุดข้อมูล GPQA Diamond ที่ท้าทาย ซึ่งเหนือกว่า LLM ที่ปรับแต่งส่วนใหญ่และ GPT-4o ล่าสุด
- MiniMax-Text-01 ยังได้คะแนนสูงสุด 3 อันดับแรกใน MMLU, IFEval และ Arena-Hard ซึ่งแสดงให้เห็นถึงความสามารถในการประยุกต์ใช้ความรู้และตอบสนองต่อคำถามของผู้ใช้ได้อย่างมีประสิทธิภาพ
ความสามารถด้านบริบทที่เหนือกว่า
Context Window ที่ขยายของ MiniMax-Text-01 เป็นตัวสร้างความแตกต่างที่สำคัญ:
- ในการวัดผล Ruler, MiniMax-Text-01 ทำงานได้เทียบเท่ากับโมเดลอื่นๆ ที่ความยาวบริบทสูงสุด 64k แต่ประสิทธิภาพเพิ่มขึ้นอย่างมากเมื่อเกิน 128k
- โมเดลยังแสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในงาน Long-Context Reasoning ของ LongBench v2
- นอกจากนี้ ความสามารถในการเรียนรู้ Long-Context ของ MiniMax-Text-01 ยังล้ำสมัย ซึ่งได้รับการยืนยันโดยการวัดผล MTOB
การใช้งานจริง
ความสามารถของ MiniMax-Text-01 ขยายไปไกลกว่าการวัดผล
- สามารถสร้างเนื้อหาที่สร้างสรรค์ เช่น เพลง ด้วยภาษาที่ละเอียดอ่อนและอารมณ์ความรู้สึกที่ลึกซึ้ง
- สามารถทำงานที่ซับซ้อน เช่น การแปลภาษาที่ไม่ค่อยใช้กันอย่าง Kalamang โดยใช้คำแนะนำ ไวยากรณ์ และคำศัพท์ที่ให้มา
- แสดงให้เห็นถึงหน่วยความจำที่ยอดเยี่ยมในการสนทนาที่ยาวนาน
MiniMax-VL-01: โมเดลภาษาภาพ
จาก MiniMax-Text-01, MiniMax ได้พัฒนาเวอร์ชันมัลติโมดอล MiniMax-VL-01 ซึ่งรวม Image Encoder และ Adapter โมเดลนี้ใช้ ViT สำหรับการเข้ารหัสภาพด้วยโปรเจ็กเตอร์ MLP สองชั้นสำหรับการปรับภาพ โมเดลนี้ได้รับการฝึกอบรมอย่างต่อเนื่องด้วยข้อมูลภาพและภาษาโดยใช้ชุดข้อมูลที่เป็นกรรมสิทธิ์และกลยุทธ์การฝึกอบรมแบบหลายขั้นตอน
MiniMax-VL-01 แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในการวัดผลต่างๆ โดยมักจะเทียบเท่าหรือเกินกว่าโมเดล SOTA อื่นๆ ได้รับการพิสูจน์แล้วว่าสามารถวิเคราะห์ข้อมูลภาพที่ซับซ้อน เช่น แผนที่นำทาง
อนาคตของ AI Agent
MiniMax กำลังผลักดันขีดจำกัดของความสามารถของ Context Window อย่างต่อเนื่อง โดยมีการวิจัยเกี่ยวกับสถาปัตยกรรมที่อาจกำจัด Softmax Attention และเปิดใช้งาน Infinite Context Window บริษัทตระหนักถึงความสำคัญของโมเดลมัลติโมดอลสำหรับ AI Agent เนื่องจากงานในโลกแห่งความเป็นจริงจำนวนมากต้องใช้ความเข้าใจด้านภาพและข้อความ MiniMax มีเป้าหมายที่จะสร้าง AI Agent ที่เป็นธรรมชาติ เข้าถึงได้ และแพร่หลาย พร้อมศักยภาพในการโต้ตอบกับโลกทางกายภาพ