- Published on
ديب سيك V3: نموذج مفتوح المصدر رائد
نظرة عامة
تم إطلاق ديب سيك V3، وهو نموذج خليط من الخبراء (MoE) بـ 671 مليار معلمة، ومفتوح المصدر، مما أثار ضجة في مجتمع الذكاء الاصطناعي. تم تدريبه على 14.8 تريليون رمز عالي الجودة، مع تفعيل 37 مليار معلمة فقط أثناء الاستدلال. يحقق النموذج أداءً متطورًا (SOTA) بين النماذج مفتوحة المصدر، متجاوزًا لاما 3.1 405B ومنافسًا النماذج العليا مثل GPT-4o وكلود 3.5 سونيت. ديب سيك V3 أرخص بكثير من نماذج كلود 3.5، حيث يكلف 9٪ فقط من كلود 3.5 سونيت.
التدريب الفعال من حيث التكلفة
تطلب تدريب ديب سيك V3 أقل من 2.8 مليون ساعة GPU، وهو تناقض صارخ مع 30.8 مليون ساعة GPU لـ لاما 3 405B. بلغت التكلفة الإجمالية لتدريب ديب سيك V3 حوالي 5.576 مليون دولار، بينما يكلف تدريب نموذج لاما 2 7B مبلغ 760،000 دولار. يُعزى هذا الفعالية من حيث التكلفة إلى الخوارزميات والأطر والأجهزة المحسّنة. أشار كارباثي، وهو عضو مؤسس في OpenAI، إلى أن ديب سيك V3 يحقق أداءً مماثلاً بموارد أقل بكثير، مما يسلط الضوء على إمكانية التحسين في البيانات والخوارزميات.
الأداء والتقييم
تلقى ديب سيك V3 إشادة من خبراء الذكاء الاصطناعي مثل جيا يانغتشينغ وتيان يوندونغ من ميتا. يتفوق على النماذج الأخرى مفتوحة المصدر مثل Qwen2.5-72B وLlama-3.1-405B في مختلف المعايير. أداء النموذج قابل للمقارنة مع النماذج العليا مغلقة المصدر مثل GPT-4o وClaude-3.5-Sonnet. يولد ديب سيك V3 الرموز بمعدل 60 في الثانية، وهو تحسن في السرعة بمقدار 3 أضعاف. أسعار واجهة برمجة التطبيقات (API) تنافسية للغاية أيضًا، حيث تتكلف الرموز المدخلة 0.5-2 يوان صيني لكل مليون والرموز المخرجة 8 يوان صيني لكل مليون. يضع تقييم Kagi ديب سيك V3 في قمة النماذج مفتوحة المصدر، قريبًا من Sonnet-3.5 وGPT-4o.
مشاركة المجتمع
النموذج متاح للاختبار على المنصة الرسمية، مع فتح الكود للتنزيل. يقوم المتحمسون للذكاء الاصطناعي بتجربة ديب سيك V3، بما في ذلك تشغيله على أجهزة Mac Mini المكدسة. أعرب المطورون عن دهشتهم لقدرة النموذج على فهم التعليمات المعقدة دون تفسيرات صريحة. قام أحد المطورين بإنشاء لعبة باستخدام شعارات شركات الذكاء الاصطناعي مع ديب سيك V3 في فترة قصيرة من الزمن. تم تسليط الضوء على التكلفة المنخفضة لتشغيل ديب سيك V3، حيث أشار أحد المستخدمين إلى أن تكلفة تشغيله تبلغ 2 دولار فقط في اليوم بمعدل 60 رمزًا في الثانية.
تفاصيل التدريب
تم تحسين تدريب ديب سيك V3 من خلال التحسينات الخوارزمية والإطار والأجهزة. تم تدريب النموذج على تريليون رمز في 180،000 ساعة GPU، واستكمال التدريب المسبق في أقل من شهرين. بلغت التكلفة الإجمالية للتدريب 2.788 مليون ساعة GPU، أو 5.576 مليون دولار. تتضمن التحسينات الرئيسية ما يلي:
- موازنة التحميل: استراتيجية جديدة لموازنة التحميل مع مصطلحات التحيز لكل خبير في بنية MoE.
- تنبؤ متعدد الرموز (MTP): هدف تدريب يحسن أداء النموذج ويتيح استدلالًا أسرع من خلال فك التشفير التخميني.
- تدريب FP8: استخدام تدريب FP8 المختلط الدقة، مما يدل على جدواه للنماذج واسعة النطاق.
- DualPipe: خوارزمية متوازية فعالة للخطوط الأنابيب تتداخل مع الحساب والاتصال، مما يقلل من الحمل الزائد للاتصال.
تتكون بنية MoE من 256 خبير توجيه وخبير واحد مشترك، حيث يقوم كل رمز بتنشيط 8 خبراء وإرساله إلى 4 عقد كحد أقصى. يتم نشر الخبراء الزائدين لتحقيق التوازن في الحمل أثناء الاستدلال. تم تعزيز قدرات الاستدلال في النموذج من خلال استخلاص المعرفة من نموذج سلسلة طويلة (ديب سيك R1).
النتائج التجريبية
يحقق ديب سيك V3 أداءً متطورًا بين النماذج مفتوحة المصدر في مختلف المعايير. يؤدي النموذج أداءً جيدًا في تجارب "الإبرة في كومة القش"، مما يدل على قدرته على استرداد معلومات محددة من سياقات طويلة.
موارد
- التقرير الفني: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3