Published on

الكشف المفاجئ عن نموذج Deepseek الجديد: معايير البرمجة تتفوق على Claude 3.5 Sonnet

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

الكشف عن نموذج Deepseek-v3 وأدائه المذهل

لقد ظهر نموذج Deepseek-v3 بشكل غير متوقع، وهو نموذج لغوي كبير لم يتم الإعلان عنه رسميًا، ولكنه أظهر بالفعل أداءً مثيرًا للإعجاب. تم تسريب هذا النموذج، وقد أثار ضجة كبيرة في مجتمع الذكاء الاصطناعي بسبب قدراته المتقدمة.

تفوق على Claude 3.5 Sonnet في معايير البرمجة

أحد أبرز إنجازات Deepseek-v3 هو تفوقه على نموذج Claude 3.5 Sonnet في معيار Aider للبرمجة متعددة اللغات. هذا الإنجاز يمثل علامة فارقة في مجال نماذج اللغة الكبيرة، ويشير إلى أن Deepseek-v3 يمتلك قدرات برمجية متفوقة.

أقوى نموذج مفتوح المصدر على LiveBench

بالإضافة إلى ذلك، يعتبر Deepseek-v3 حاليًا أقوى نموذج لغة كبير مفتوح المصدر على منصة LiveBench للتقييم. هذا يؤكد على قوة النموذج وقدرته على المنافسة مع النماذج التجارية الكبرى.

بنية النموذج وتفاصيله التقنية

يتميز نموذج Deepseek-v3 ببنية معقدة تعتمد على تقنية MoE (Mixture of Experts)، حيث يضم 685 مليار معلمة. هذا الحجم الهائل من المعلمات يسمح للنموذج بالتعامل مع مجموعة واسعة من المهام بكفاءة عالية.

تفاصيل معمارية Deepseek-V3

حجم المعلمات والبنية

يحتوي النموذج على 685 مليار معلمة، مما يجعله نموذجًا ضخمًا وقادرًا على استيعاب كميات هائلة من المعلومات. تعتمد بنية النموذج على تقنية MoE، حيث يتكون من 256 خبيرًا.

آلية التوجيه

يستخدم النموذج دالة سيجمويد للتوجيه، حيث يتم اختيار أفضل 8 خبراء (Top-k=8). هذه الآلية تسمح للنموذج بالاستفادة من مجموعة واسعة من الخبراء، مما يزيد من كفاءة الأداء.

نافذة السياق وسرعة توليد الرموز

يدعم النموذج نافذة سياق تصل إلى 64 ألف رمز، مع إعداد افتراضي يبلغ 4 آلاف رمز وحد أقصى 8 آلاف رمز. تبلغ سرعة توليد الرموز حوالي 60 رمزًا في الثانية، مما يجعله سريعًا في معالجة النصوص.

التغييرات المعمارية الرئيسية مقارنة بالإصدار V2

دالة البوابة

في الإصدار v3، تم استبدال دالة softmax بدالة سيجمويد لاختيار الخبراء. يسمح هذا التغيير للنموذج بالاختيار من مجموعة أكبر من الخبراء، على عكس softmax التي تميل إلى تفضيل عدد قليل منهم.

اختيار Top-k

يقدم الإصدار v3 طريقة جديدة لاختيار Top-k تسمى noaux_tc، والتي لا تتطلب خسارة إضافية. هذا يبسط عملية التدريب ويحسن الكفاءة عن طريق استخدام دالة الخسارة الرئيسية للمهمة مباشرة.

تعديل درجة الخبير

تمت إضافة معلمة جديدة، e_score_correction_bias، لتعديل درجات الخبراء، مما يؤدي إلى أداء أفضل أثناء اختيار الخبراء وتدريب النموذج.

مقارنة مع الإصدارين V2 و V2.5

V3 مقابل V2

يعتبر الإصدار v3 نسخة محسنة من الإصدار v2، مع تحسينات كبيرة في جميع المعلمات. هذا يعني أن v3 يتفوق على v2 في جميع الجوانب.

V3 مقابل V2.5

يتفوق الإصدار v3 على الإصدار v2.5 من حيث التكوين، بما في ذلك عدد الخبراء الأكبر، والأحجام الأكبر للطبقات الوسيطة، والمزيد من الخبراء لكل رمز. هذه التحسينات تجعل v3 أكثر قوة وكفاءة.

اختبارات المستخدمين وملاحظاتهم

الاختبارات الأولية

قام المطور سيمون ويليسون باختبار Deepseek-v3 ووجد أنه يعرف نفسه بأنه يعتمد على بنية GPT-4 الخاصة بـ OpenAI. هذا يشير إلى أن النموذج قد تم تدريبه على بيانات أو استجابات من OpenAI.

توليد الصور

تم اختبار النموذج أيضًا في توليد الصور، حيث قام بإنشاء صورة SVG لطائر بجع يركب دراجة. هذا يدل على قدرة النموذج على التعامل مع أنواع مختلفة من المهام.

تعريف غير متوقع للذات

أفاد العديد من المستخدمين بأن Deepseek-v3 عرف نفسه بأنه يعتمد على نماذج OpenAI، ربما بسبب استخدام استجابات نموذج OpenAI أثناء التدريب. هذا يثير بعض التساؤلات حول أصل بيانات التدريب.

ردود فعل المجتمع

أثار الإطلاق غير المتوقع والأداء القوي لـ Deepseek-v3 حماسًا كبيرًا في مجتمع الذكاء الاصطناعي. يعتقد بعض المستخدمين أن أداء Deepseek-v3 يتفوق على نماذج OpenAI، خاصة في مجال المصادر المفتوحة.

مصادر إضافية