מודל חדש של Deepseek נחשף באופן בלתי צפוי: אמות מידה בתכנות עולות על Claude 3.5 Sonnet

הדגשים עיקריים

Deepseek-v3, מודל שלא הוכרז, דלף וכבר מציג ביצועים מרשימים.
הוא עבר את Claude 3.5 Sonnet במבחן התכנות הרב-לשוני Aider.
Deepseek-v3 הוא כיום מודל ה-LLM הקוד הפתוח החזק ביותר בפלטפורמת ההערכה LiveBench.
ארכיטקטורת המודל כוללת מבנה MoE של 685B פרמטרים עם שיפורים משמעותיים לעומת גרסאות קודמות.

הדליפה דווחה לראשונה על ידי משתמשי Reddit, שמצאו את המודל זמין בממשקי API ובדפי אינטרנט.
הביצועים של Deepseek-v3 הוערכו במבחנים שונים, כולל Aider ו-LiveBench.
משקלי הקוד הפתוח של המודל זמינים כבר ב-Hugging Face, אם כי כרטיס מודל עדיין אינו זמין.

פונקציית שער: v3 משתמש בפונקציית סיגמואיד במקום softmax לבחירת מומחים. זה מאפשר למודל לבחור מתוך סט גדול יותר של מומחים, בניגוד ל-softmax שנוטה להעדיף כמה מועטים.
בחירת Top-k: v3 מציג שיטת noaux_tc חדשה לבחירת Top-k, שאינה דורשת אובדן עזר. זה מפשט את האימון ומשפר את היעילות על ידי שימוש ישיר בפונקציית האובדן של המשימה הראשית.
התאמת ציון מומחה: נוסף פרמטר חדש, e_score_correction_bias, להתאמת ציוני מומחים, מה שמוביל לביצועים טובים יותר במהלך בחירת מומחים ואימון מודל.

v3 לעומת v2: v3 הוא בעצם גרסה משופרת של v2, עם שיפורים משמעותיים בכל הפרמטרים.
v3 לעומת v2.5: v3 עולה על v2.5 מבחינת תצורה, כולל יותר מומחים, גדלי שכבה ביניים גדולים יותר ויותר מומחים לכל טוקן.

סימון וויליסון, מפתח, בדק את Deepseek-v3 וגילה שהוא הזדהה כבנוי על ארכיטקטורת GPT-4 של OpenAI.
המודל נבדק גם ליצירת תמונות, ויצר תמונת SVG של שקנאי רוכב על אופניים.

משתמשים רבים דיווחו ש-Deepseek-v3 הזדהה כבנוי על מודלים של OpenAI, כנראה בגלל השימוש בתגובות מודל של OpenAI במהלך האימון.

השחרור הבלתי צפוי והביצועים החזקים של Deepseek-v3 עוררו התרגשות בקהילה.
יש משתמשים שמאמינים שהביצועים של Deepseek-v3 עולים על אלה של המודלים של OpenAI, במיוחד בתחום הקוד הפתוח.