- Published on
מודל חדש של Deepseek נחשף באופן בלתי צפוי: אמות מידה בתכנות עולות על Claude 3.5 Sonnet
הדגשים עיקריים
- Deepseek-v3, מודל שלא הוכרז, דלף וכבר מציג ביצועים מרשימים.
- הוא עבר את Claude 3.5 Sonnet במבחן התכנות הרב-לשוני Aider.
- Deepseek-v3 הוא כיום מודל ה-LLM הקוד הפתוח החזק ביותר בפלטפורמת ההערכה LiveBench.
- ארכיטקטורת המודל כוללת מבנה MoE של 685B פרמטרים עם שיפורים משמעותיים לעומת גרסאות קודמות.
מידע רקע
- הדליפה דווחה לראשונה על ידי משתמשי Reddit, שמצאו את המודל זמין בממשקי API ובדפי אינטרנט.
- הביצועים של Deepseek-v3 הוערכו במבחנים שונים, כולל Aider ו-LiveBench.
- משקלי הקוד הפתוח של המודל זמינים כבר ב-Hugging Face, אם כי כרטיס מודל עדיין אינו זמין.
פרטים טכניים של Deepseek-V3
ארכיטקטורת המודל
- גודל פרמטר: 685 מיליארד פרמטרים
- מבנה MoE: ארכיטקטורת Mixture of Experts עם 256 מומחים
- ניתוב: משתמש בפונקציית סיגמואיד לניתוב, בוחר את 8 המומחים המובילים (Top-k=8)
- חלון הקשר: תומך בהקשר של 64K, עם ברירת מחדל של 4K ומקסימום של 8K
- מהירות יצירת טוקנים: כ-60 טוקנים בשנייה
שינויים ארכיטקטוניים מרכזיים בהשוואה ל-V2
- פונקציית שער: v3 משתמש בפונקציית סיגמואיד במקום softmax לבחירת מומחים. זה מאפשר למודל לבחור מתוך סט גדול יותר של מומחים, בניגוד ל-softmax שנוטה להעדיף כמה מועטים.
- בחירת Top-k: v3 מציג שיטת noaux_tc חדשה לבחירת Top-k, שאינה דורשת אובדן עזר. זה מפשט את האימון ומשפר את היעילות על ידי שימוש ישיר בפונקציית האובדן של המשימה הראשית.
- התאמת ציון מומחה: נוסף פרמטר חדש, e_score_correction_bias, להתאמת ציוני מומחים, מה שמוביל לביצועים טובים יותר במהלך בחירת מומחים ואימון מודל.
השוואה עם V2 ו-V2.5
- v3 לעומת v2: v3 הוא בעצם גרסה משופרת של v2, עם שיפורים משמעותיים בכל הפרמטרים.
- v3 לעומת v2.5: v3 עולה על v2.5 מבחינת תצורה, כולל יותר מומחים, גדלי שכבה ביניים גדולים יותר ויותר מומחים לכל טוקן.
בדיקות משתמשים ותצפיות
בדיקות ראשוניות
- סימון וויליסון, מפתח, בדק את Deepseek-v3 וגילה שהוא הזדהה כבנוי על ארכיטקטורת GPT-4 של OpenAI.
- המודל נבדק גם ליצירת תמונות, ויצר תמונת SVG של שקנאי רוכב על אופניים.
זיהוי עצמי בלתי צפוי
- משתמשים רבים דיווחו ש-Deepseek-v3 הזדהה כבנוי על מודלים של OpenAI, כנראה בגלל השימוש בתגובות מודל של OpenAI במהלך האימון.
תגובת הקהילה
- השחרור הבלתי צפוי והביצועים החזקים של Deepseek-v3 עוררו התרגשות בקהילה.
- יש משתמשים שמאמינים שהביצועים של Deepseek-v3 עולים על אלה של המודלים של OpenAI, במיוחד בתחום הקוד הפתוח.
משאבים נוספים
- Hugging Face
- Simon Willisonsimonwillison.net/2024/Dec/25/deepseek-v3/)