- Published on
מינימקס חושפת מודל קוד פתוח 456B פרמטרים 4M הקשר
מינימקס מאמצת את עידן הסוכנים
קהילת הבינה המלאכותית רוחשת תחזיות ששנת 2025 תהיה שנת סוכני הבינה המלאכותית. מובילי תעשייה כמו Sam Altman מ-OpenAI, Mark Zuckerberg מ-Meta ו-Jensen Huang מ-Nvidia, כולם הציעו שלסוכני בינה מלאכותית תהיה השפעה משמעותית על כוח העבודה ועל נוף ה-IT. מינימקס הגיבה למגמה המתפתחת הזו על ידי פתיחת הקוד של מודל השפה היסודי האחרון שלה, MiniMax-Text-01, ומודל מולטימודלי חזותי, MiniMax-VL-01.
חידוש מרכזי במודלים החדשים הללו הוא יישום מנגנון קשב ליניארי חדשני, אשר מרחיב משמעותית את חלון ההקשר. המודלים של מינימקס יכולים לעבד 4 מיליון טוקנים בבת אחת, שזה פי 20 עד 32 יותר ממודלים אחרים. התקדמות זו היא קריטית עבור יישומי סוכנים, הדורשים חלונות הקשר ארוכים כדי לנהל זיכרון ושיתוף פעולה בין מספר סוכנים.
חידושים המניעים את המודלים של הקוד הפתוח של מינימקס
MiniMax-Text-01 הוא תוצאה של מספר חידושים, כולל:
- Lightning Attention: צורה של קשב ליניארי המפחיתה את המורכבות החישובית של ארכיטקטורת ה-Transformer מריבועית לליניארית. זה מושג באמצעות טריק קרנל של מכפלה ימנית, המאפשר חישוב יעיל יותר של קשב.
- Hybrid-lightning: שילוב של Lightning Attention וקשב softmax, כאשר Lightning Attention מוחלף בקשב softmax בכל שמונה שכבות. גישה זו משפרת את יכולות המדרגיות תוך שמירה על יעילות.
- Mixture of Experts (MoE): בהשוואה למודלים צפופים, מודלי MoE מראים שיפורים משמעותיים בביצועים, במיוחד כאשר עומסי החישוב דומים. מינימקס גם הציגה שלב תקשורת allgather כדי למנוע קריסת ניתוב בעת קנה מידה של מודלי MoE.
- אופטימיזציה חישובית: מינימקס ביצעה אופטימיזציה לארכיטקטורת MoE על ידי שימוש בסכמת חפיפה מבוססת קיבוץ טוקנים כדי להפחית את עומסי התקשורת. עבור אימון הקשר ארוך, הם השתמשו בטכניקת אריזת נתונים שבה דגימות אימון מחוברות מקצה לקצה לאורך ממד הרצף. הם גם אימצו ארבע אסטרטגיות אופטימיזציה עבור Lightning Attention: מיזוג קרנל אצווה, ביצוע מילוי מראש ופענוח נפרד, ריפוד רב-שכבתי והרחבת מכפלת מטריצות אצווה מרובדת.
חידושים אלה הובילו ליצירת LLM עם 456 מיליארד פרמטרים עם 32 מומחים, כאשר כל טוקן מפעיל 45.9 מיליארד פרמטרים.
ביצועי בנצ'מרק של MiniMax-Text-01
MiniMax-Text-01 הראתה ביצועים מצוינים במספר בנצ'מרקים, המתחרים ואף עולים על מודלים סגורים כמו GPT-4o ו-Claude 3.5 Sonnet, כמו גם מודלים קוד פתוח כמו Qwen2.5 ו-Llama 3.1.
- ב-HumanEval, MiniMax-Text-01 עולה על Instruct Qwen2.5-72B.
- היא השיגה ציון של 54.4 במערך הנתונים המאתגר GPQA Diamond, ועקפה את רוב ה-LLM המכווננים ואת ה-GPT-4o האחרון.
- MiniMax-Text-01 השיגה גם ציונים בין שלושת הראשונים ב-MMLU, IFEval ו-Arena-Hard, והדגימה את יכולתה ליישם ידע ולענות על שאילתות משתמשים ביעילות.
יכולות הקשר מעולות
חלון ההקשר המורחב של MiniMax-Text-01 הוא גורם מבדיל מרכזי:
- בבנצ'מרק Ruler, MiniMax-Text-01 מתפקדת באופן דומה למודלים אחרים עד לאורך הקשר של 64k, אך ביצועיה גדלים משמעותית מעבר ל-128k.
- המודל גם מדגים ביצועים יוצאי דופן במשימות ההיגיון בהקשר ארוך של LongBench v2.
- בנוסף, יכולות הלמידה בהקשר ארוך של MiniMax-Text-01 הן חדישות, כפי שאומת על ידי בנצ'מרק MTOB.
יישומים בעולם האמיתי
היכולות של MiniMax-Text-01 חורגות מעבר לבנצ'מרקים.
- היא יכולה ליצור תוכן יצירתי, כמו שיר, עם שפה ניואנסית ועומק רגשי.
- היא יכולה לבצע משימות מורכבות כמו תרגום שפה פחות נפוצה כמו קלמנג, תוך שימוש בהוראות, דקדוק ואוצר מילים שסופקו.
- היא מציגה זיכרון מצוין בשיחות ארוכות.
MiniMax-VL-01: מודל שפה חזותית
בהתבסס על MiniMax-Text-01, מינימקס פיתחה גרסה מולטימודלית, MiniMax-VL-01, המשלבת מקודד תמונה ומתאם. המודל משתמש ב-ViT לקידוד חזותי עם מקרן MLP דו-שכבתי להתאמת תמונה. מודל זה עבר אימון רציף עם נתוני תמונה-שפה באמצעות מערך נתונים קנייני ואסטרטגיית אימון רב-שלבית.
MiniMax-VL-01 מדגים ביצועים חזקים בבנצ'מרקים שונים, ולעתים קרובות משתווה או עולה על מודלים אחרים של SOTA. הוא הוכיח את יכולתו לנתח נתונים חזותיים מורכבים, כגון מפות ניווט.
עתיד סוכני הבינה המלאכותית
מינימקס דוחפת את גבולות יכולות חלון ההקשר, עם מחקר מתמשך על ארכיטקטורות שעשויות לבטל את קשב softmax ולאפשר חלונות הקשר אינסופיים. החברה מכירה בחשיבותם של מודלים מולטימודליים עבור סוכני בינה מלאכותית, שכן משימות רבות בעולם האמיתי דורשות הבנה חזותית וטקסטואלית. מינימקס שואפת ליצור סוכני בינה מלאכותית שהם טבעיים, נגישים ובלתי נפוצים, עם פוטנציאל ליצור אינטראקציה עם העולם הפיזי.