مدل جدید دیپ‌سیک به‌طور غیرمنتظره‌ای رونمایی شد: معیارهای برنامه‌نویسی از کلود 3.5 سونِت پیشی گرفت

معرفی مدل دیپ‌سیک v3

مدل جدید دیپ‌سیک v3، که به‌طور غیرمنتظره‌ای فاش شده، با عملکرد چشمگیر خود در معیارهای برنامه‌نویسی توجه بسیاری را به خود جلب کرده است. این مدل نه تنها از کلود 3.5 سونِت در معیار Aider پیشی گرفته، بلکه به عنوان قوی‌ترین مدل زبان بزرگ متن‌باز در پلتفرم LiveBench نیز شناخته شده است. ساختار این مدل بر پایه 685 میلیارد پارامتر MoE (مخلوط متخصصان) بنا شده است که نشان‌دهنده پیشرفت‌های قابل توجهی نسبت به نسخه‌های قبلی می‌باشد.

جزئیات فنی مدل دیپ‌سیک v3

معماری مدل

اندازه پارامتر: 685 میلیارد پارامتر
ساختار MoE: معماری مخلوط متخصصان با 256 متخصص
مسیریابی: استفاده از تابع سیگموئید برای مسیریابی و انتخاب 8 متخصص برتر (Top-k=8)
پنجره متن: پشتیبانی از 64K متن، با پیش‌فرض 4K و حداکثر 8K
سرعت تولید توکن: تقریباً 60 توکن در ثانیه

تغییرات کلیدی معماری نسبت به نسخه v2

تابع دروازه: استفاده از تابع سیگموئید به جای سافت‌مکس برای انتخاب متخصص. این تغییر به مدل اجازه می‌دهد تا از مجموعه بزرگتری از متخصصان انتخاب کند، در حالی که سافت‌مکس تمایل به ترجیح دادن تعداد کمی از متخصصان داشت.
انتخاب Top-k: معرفی روش جدید noaux_tc برای انتخاب Top-k که نیازی به از دست دادن کمکی ندارد. این امر آموزش را ساده‌تر کرده و با استفاده مستقیم از تابع از دست دادن وظیفه اصلی، کارایی را بهبود می‌بخشد.
تنظیم امتیاز متخصص: اضافه شدن پارامتر جدید e_score_correction_bias برای تنظیم امتیازات متخصصان، که منجر به عملکرد بهتر در طول انتخاب متخصص و آموزش مدل می‌شود.

مقایسه با نسخه v2 و v2.5

v3 در مقابل v2: v3 اساساً نسخه پیشرفته‌ای از v2 است، با بهبودهای قابل توجه در تمام پارامترها.
v3 در مقابل v2.5: v3 از نظر پیکربندی، از جمله تعداد بیشتر متخصصان، اندازه لایه‌های میانی بزرگتر و تعداد بیشتر متخصصان در هر توکن، از v2.5 پیشی می‌گیرد.

آزمایشات و مشاهدات کاربران

آزمایش‌های اولیه

سیمون ویلیسون، توسعه‌دهنده، دیپ‌سیک v3 را آزمایش کرد و متوجه شد که این مدل خود را بر اساس معماری GPT-4 شرکت OpenAI معرفی می‌کند.
این مدل همچنین برای تولید تصویر آزمایش شد و یک تصویر SVG از یک پلیکان سوار بر دوچرخه ایجاد کرد.

خودشناسی غیرمنتظره

چندین کاربر گزارش داده‌اند که دیپ‌سیک v3 خود را بر اساس مدل‌های OpenAI معرفی می‌کند، احتمالاً به دلیل استفاده از پاسخ‌های مدل OpenAI در طول آموزش.

واکنش جامعه

انتشار غیرمنتظره و عملکرد قوی دیپ‌سیک v3، هیجان زیادی در جامعه ایجاد کرده است. برخی از کاربران بر این باورند که عملکرد دیپ‌سیک v3، به ویژه در حوزه متن‌باز، از مدل‌های OpenAI نیز فراتر می‌رود.

منابع اضافی

مدل دیپ‌سیک v3 با ساختار پیشرفته و عملکرد قدرتمند خود، نویدبخش تحولات بزرگی در حوزه هوش مصنوعی و مدل‌های زبان بزرگ است. این مدل متن‌باز، فرصت‌های جدیدی را برای محققان و توسعه‌دهندگان فراهم می‌آورد و می‌تواند به پیشرفت‌های بیشتری در این زمینه منجر شود. با وجود اینکه این مدل به‌طور غیرمنتظره‌ای فاش شده، استقبال گسترده از آن نشان از اهمیت و پتانسیل بالای آن دارد.