Published on

מודל פורץ דרך בקוד פתוח: DeepSeek V3

מחברים
  • avatar
    שם
    Ajax
    Twitter

סקירה כללית

DeepSeek V3, מודל Mixture-of-Experts (MoE) עם 671 מיליארד פרמטרים, שוחרר ופורסם בקוד פתוח, ועורר עניין רב בקהילת הבינה המלאכותית. המודל אומן על 14.8 טריליון טוקנים באיכות גבוהה, כאשר רק 37 מיליארד פרמטרים מופעלים במהלך ההסקה. הוא משיג ביצועים מתקדמים (SOTA) בקרב מודלים בקוד פתוח, ועוקף את Llama 3.1 405B ומתחרה במודלים המובילים כמו GPT-4o ו-Claude 3.5 Sonnet.

DeepSeek V3 זול משמעותית ממודלי Claude 3.5, כאשר עלותו מהווה רק 9% מזו של Claude 3.5 Sonnet.

אימון חסכוני

אימון DeepSeek V3 דרש פחות מ-2.8 מיליון שעות GPU, בניגוד חריף ל-30.8 מיליון שעות ה-GPU שנדרשו עבור Llama 3 405B. עלות האימון הכוללת של DeepSeek V3 הייתה כ-5.576 מיליון דולר, בעוד שאימון מודל Llama 2 7B עולה 760,000 דולר.

יעילות עלות זו מיוחסת לאלגוריתמים, מסגרות וחומרה מותאמים. קרפתי, חבר מייסד ב-OpenAI, ציין כי DeepSeek V3 משיג ביצועים דומים עם הרבה פחות משאבים, מה שמדגיש את הפוטנציאל לאופטימיזציה בנתונים ובאלגוריתמים.

ביצועים והערכה

DeepSeek V3 זכה לשבחים ממומחי בינה מלאכותית כמו ג'יה יאנגצ'ינג וטיאן יונדונג מ-Meta. הוא עולה בביצועיו על מודלים אחרים בקוד פתוח כמו Qwen2.5-72B ו-Llama-3.1-405B במדדים שונים. ביצועי המודל דומים למודלים המובילים בקוד סגור כמו GPT-4o ו-Claude-3.5-Sonnet.

DeepSeek V3 מייצר טוקנים בקצב של 60 לשנייה, שיפור מהירות פי 3. תמחור ה-API הוא גם תחרותי מאוד, כאשר טוקני קלט עולים 0.5-2 RMB למיליון וטוקני פלט עולים 8 RMB למיליון. ההערכה של Kagi מציבה את DeepSeek V3 בראש מודלי הקוד הפתוח, קרוב מאחורי Sonnet-3.5 ו-GPT-4o.

מעורבות קהילתית

המודל זמין לבדיקה בפלטפורמה הרשמית, כאשר הקוד פתוח להורדה. חובבי בינה מלאכותית ניסו את DeepSeek V3, כולל הרצתו על Mac Minis מוערמים. מפתחים הביעו השתאות מיכולתו של המודל להבין הוראות מורכבות ללא הסברים מפורשים.

מפתח אחד יצר משחק באמצעות לוגו של חברות בינה מלאכותית עם DeepSeek V3 תוך זמן קצר. העלות הנמוכה של הפעלת DeepSeek V3 הודגשה, כאשר משתמש אחד ציין כי הפעלתו עולה רק 2 דולר ליום בקצב של 60 טוקנים לשנייה.

פרטי אימון

אימון DeepSeek V3 עבר אופטימיזציה באמצעות שיפורים אלגוריתמיים, מסגרתיים וחומרתיים. המודל אומן על טריליון טוקנים ב-180,000 שעות GPU, והשלים את האימון המוקדם תוך פחות מחודשיים. עלות האימון הכוללת הייתה 2.788 מיליון שעות GPU, או 5.576 מיליון דולר.

האופטימיזציות העיקריות כוללות:

  • איזון עומסים: אסטרטגיית איזון עומסים חדשה עם מונחי הטיה לכל מומחה בארכיטקטורת MoE.
  • חיזוי מרובה טוקנים (MTP): יעד אימון המשפר את ביצועי המודל ומאפשר הסקה מהירה יותר באמצעות פענוח ספקולטיבי.
  • אימון FP8: שימוש באימון דיוק מעורב FP8, המדגים את היתכנותו עבור מודלים בקנה מידה גדול.
  • DualPipe: אלגוריתם מקביל יעיל המבצע חפיפה בין חישוב ותקשורת, ומפחית את תקורה התקשורת.

ארכיטקטורת MoE מורכבת מ-256 מומחי ניתוב ומומחה משותף אחד, כאשר כל טוקן מפעיל 8 מומחים ונשלח למקסימום 4 צמתים. מומחים יתירים נפרסים כדי לאזן את העומס במהלך ההסקה. יכולות ההסקה של המודל שופרו על ידי זיקוק ידע ממודל שרשרת ארוכה (DeepSeek R1).

תוצאות ניסיוניות

DeepSeek V3 משיג ביצועי SOTA בקרב מודלים בקוד פתוח במדדים שונים. המודל מתפקד היטב בניסויי "מחט בערימת שחת", מה שמדגים את יכולתו לאחזר מידע ספציפי מהקשרים ארוכים.

משאבים