- Published on
مدل جدید دیپسیک بهطور غیرمنتظرهای رونمایی شد: معیارهای برنامهنویسی از کلود 3.5 سونِت پیشی گرفت
معرفی مدل دیپسیک v3
مدل جدید دیپسیک v3، که بهطور غیرمنتظرهای فاش شده، با عملکرد چشمگیر خود در معیارهای برنامهنویسی توجه بسیاری را به خود جلب کرده است. این مدل نه تنها از کلود 3.5 سونِت در معیار Aider پیشی گرفته، بلکه به عنوان قویترین مدل زبان بزرگ متنباز در پلتفرم LiveBench نیز شناخته شده است. ساختار این مدل بر پایه 685 میلیارد پارامتر MoE (مخلوط متخصصان) بنا شده است که نشاندهنده پیشرفتهای قابل توجهی نسبت به نسخههای قبلی میباشد.
جزئیات فنی مدل دیپسیک v3
معماری مدل
- اندازه پارامتر: 685 میلیارد پارامتر
- ساختار MoE: معماری مخلوط متخصصان با 256 متخصص
- مسیریابی: استفاده از تابع سیگموئید برای مسیریابی و انتخاب 8 متخصص برتر (Top-k=8)
- پنجره متن: پشتیبانی از 64K متن، با پیشفرض 4K و حداکثر 8K
- سرعت تولید توکن: تقریباً 60 توکن در ثانیه
تغییرات کلیدی معماری نسبت به نسخه v2
- تابع دروازه: استفاده از تابع سیگموئید به جای سافتمکس برای انتخاب متخصص. این تغییر به مدل اجازه میدهد تا از مجموعه بزرگتری از متخصصان انتخاب کند، در حالی که سافتمکس تمایل به ترجیح دادن تعداد کمی از متخصصان داشت.
- انتخاب Top-k: معرفی روش جدید noaux_tc برای انتخاب Top-k که نیازی به از دست دادن کمکی ندارد. این امر آموزش را سادهتر کرده و با استفاده مستقیم از تابع از دست دادن وظیفه اصلی، کارایی را بهبود میبخشد.
- تنظیم امتیاز متخصص: اضافه شدن پارامتر جدید e_score_correction_bias برای تنظیم امتیازات متخصصان، که منجر به عملکرد بهتر در طول انتخاب متخصص و آموزش مدل میشود.
مقایسه با نسخه v2 و v2.5
- v3 در مقابل v2: v3 اساساً نسخه پیشرفتهای از v2 است، با بهبودهای قابل توجه در تمام پارامترها.
- v3 در مقابل v2.5: v3 از نظر پیکربندی، از جمله تعداد بیشتر متخصصان، اندازه لایههای میانی بزرگتر و تعداد بیشتر متخصصان در هر توکن، از v2.5 پیشی میگیرد.
آزمایشات و مشاهدات کاربران
آزمایشهای اولیه
- سیمون ویلیسون، توسعهدهنده، دیپسیک v3 را آزمایش کرد و متوجه شد که این مدل خود را بر اساس معماری GPT-4 شرکت OpenAI معرفی میکند.
- این مدل همچنین برای تولید تصویر آزمایش شد و یک تصویر SVG از یک پلیکان سوار بر دوچرخه ایجاد کرد.
خودشناسی غیرمنتظره
- چندین کاربر گزارش دادهاند که دیپسیک v3 خود را بر اساس مدلهای OpenAI معرفی میکند، احتمالاً به دلیل استفاده از پاسخهای مدل OpenAI در طول آموزش.
واکنش جامعه
انتشار غیرمنتظره و عملکرد قوی دیپسیک v3، هیجان زیادی در جامعه ایجاد کرده است. برخی از کاربران بر این باورند که عملکرد دیپسیک v3، به ویژه در حوزه متنباز، از مدلهای OpenAI نیز فراتر میرود.
منابع اضافی
مدل دیپسیک v3 با ساختار پیشرفته و عملکرد قدرتمند خود، نویدبخش تحولات بزرگی در حوزه هوش مصنوعی و مدلهای زبان بزرگ است. این مدل متنباز، فرصتهای جدیدی را برای محققان و توسعهدهندگان فراهم میآورد و میتواند به پیشرفتهای بیشتری در این زمینه منجر شود. با وجود اینکه این مدل بهطور غیرمنتظرهای فاش شده، استقبال گسترده از آن نشان از اهمیت و پتانسیل بالای آن دارد.