Published on

מודל חדש של Deepseek נחשף באופן בלתי צפוי: אמות מידה בתכנות עולות על Claude 3.5 Sonnet

מחברים
  • avatar
    שם
    Ajax
    Twitter

הדגשים עיקריים

  • Deepseek-v3, מודל שלא הוכרז, דלף וכבר מציג ביצועים מרשימים.
  • הוא עבר את Claude 3.5 Sonnet במבחן התכנות הרב-לשוני Aider.
  • Deepseek-v3 הוא כיום מודל ה-LLM הקוד הפתוח החזק ביותר בפלטפורמת ההערכה LiveBench.
  • ארכיטקטורת המודל כוללת מבנה MoE של 685B פרמטרים עם שיפורים משמעותיים לעומת גרסאות קודמות.

מידע רקע

  • הדליפה דווחה לראשונה על ידי משתמשי Reddit, שמצאו את המודל זמין בממשקי API ובדפי אינטרנט.
  • הביצועים של Deepseek-v3 הוערכו במבחנים שונים, כולל Aider ו-LiveBench.
  • משקלי הקוד הפתוח של המודל זמינים כבר ב-Hugging Face, אם כי כרטיס מודל עדיין אינו זמין.

פרטים טכניים של Deepseek-V3

ארכיטקטורת המודל

  • גודל פרמטר: 685 מיליארד פרמטרים
  • מבנה MoE: ארכיטקטורת Mixture of Experts עם 256 מומחים
  • ניתוב: משתמש בפונקציית סיגמואיד לניתוב, בוחר את 8 המומחים המובילים (Top-k=8)
  • חלון הקשר: תומך בהקשר של 64K, עם ברירת מחדל של 4K ומקסימום של 8K
  • מהירות יצירת טוקנים: כ-60 טוקנים בשנייה

שינויים ארכיטקטוניים מרכזיים בהשוואה ל-V2

  • פונקציית שער: v3 משתמש בפונקציית סיגמואיד במקום softmax לבחירת מומחים. זה מאפשר למודל לבחור מתוך סט גדול יותר של מומחים, בניגוד ל-softmax שנוטה להעדיף כמה מועטים.
  • בחירת Top-k: v3 מציג שיטת noaux_tc חדשה לבחירת Top-k, שאינה דורשת אובדן עזר. זה מפשט את האימון ומשפר את היעילות על ידי שימוש ישיר בפונקציית האובדן של המשימה הראשית.
  • התאמת ציון מומחה: נוסף פרמטר חדש, e_score_correction_bias, להתאמת ציוני מומחים, מה שמוביל לביצועים טובים יותר במהלך בחירת מומחים ואימון מודל.

השוואה עם V2 ו-V2.5

  • v3 לעומת v2: v3 הוא בעצם גרסה משופרת של v2, עם שיפורים משמעותיים בכל הפרמטרים.
  • v3 לעומת v2.5: v3 עולה על v2.5 מבחינת תצורה, כולל יותר מומחים, גדלי שכבה ביניים גדולים יותר ויותר מומחים לכל טוקן.

בדיקות משתמשים ותצפיות

בדיקות ראשוניות

  • סימון וויליסון, מפתח, בדק את Deepseek-v3 וגילה שהוא הזדהה כבנוי על ארכיטקטורת GPT-4 של OpenAI.
  • המודל נבדק גם ליצירת תמונות, ויצר תמונת SVG של שקנאי רוכב על אופניים.

זיהוי עצמי בלתי צפוי

  • משתמשים רבים דיווחו ש-Deepseek-v3 הזדהה כבנוי על מודלים של OpenAI, כנראה בגלל השימוש בתגובות מודל של OpenAI במהלך האימון.

תגובת הקהילה

  • השחרור הבלתי צפוי והביצועים החזקים של Deepseek-v3 עוררו התרגשות בקהילה.
  • יש משתמשים שמאמינים שהביצועים של Deepseek-v3 עולים על אלה של המודלים של OpenAI, במיוחד בתחום הקוד הפתוח.

משאבים נוספים