- Published on
مدل DeepSeek V3: یک مدل متن باز پیشگامانه
معرفی DeepSeek V3
DeepSeek V3، یک مدل 671 میلیارد پارامتری Mixture-of-Experts (MoE)، به تازگی به صورت متن باز منتشر شده و سر و صدای زیادی در جامعه هوش مصنوعی به پا کرده است. این مدل بر روی 14.8 تریلیون توکن با کیفیت بالا آموزش دیده است. جالب اینجاست که تنها 37 میلیارد پارامتر آن در زمان استنتاج فعال می شود. این مدل به عملکردی در سطح پیشرفته (SOTA) در میان مدل های متن باز دست یافته است و از Llama 3.1 405B پیشی گرفته و با مدل های برتری مانند GPT-4o و Claude 3.5 Sonnet رقابت می کند.
نکته قابل توجه این است که DeepSeek V3 به طور قابل توجهی ارزان تر از مدل های Claude 3.5 است و تنها 9 درصد هزینه Claude 3.5 Sonnet را دارد. این امر DeepSeek V3 را به گزینه ای جذاب برای محققان و توسعه دهندگان تبدیل می کند که به دنبال کارایی و عملکرد بالا با هزینه کمتر هستند.
آموزش مقرون به صرفه
آموزش DeepSeek V3 به کمتر از 2.8 میلیون ساعت GPU نیاز داشت، در حالی که Llama 3 405B به 30.8 میلیون ساعت GPU احتیاج داشت. هزینه کل آموزش DeepSeek V3 تقریباً 5.576 میلیون دلار بوده است، در حالی که آموزش یک مدل 7B Llama 2، 760,000 دلار هزینه دارد. این صرفه جویی در هزینه به دلیل الگوریتم های بهینه شده، چارچوب ها و سخت افزارها می باشد.
آندره کارپاتی، یکی از اعضای موسس OpenAI، خاطرنشان کرد که DeepSeek V3 با منابع بسیار کمتری به عملکرد قابل مقایسه ای دست می یابد، که این امر پتانسیل بهینه سازی در داده ها و الگوریتم ها را نشان می دهد. این یافته ها نشان می دهد که با رویکردهای نوآورانه می توان به عملکرد بالا با هزینه های به مراتب پایین تر دست یافت.
عملکرد و ارزیابی
DeepSeek V3 از سوی کارشناسان هوش مصنوعی مانند جیا یانگ چینگ و تیان یوندونگ از متا مورد تحسین قرار گرفته است. این مدل در معیارهای مختلف از دیگر مدل های متن باز مانند Qwen2.5-72B و Llama-3.1-405B بهتر عمل می کند. عملکرد این مدل با مدل های برتر منبع بسته مانند GPT-4o و Claude-3.5-Sonnet قابل مقایسه است.
DeepSeek V3 با سرعت 60 توکن در ثانیه، که بهبود 3 برابری سرعت را نشان می دهد، توکن تولید می کند. قیمت API نیز بسیار رقابتی است، به طوری که توکن های ورودی 0.5 تا 2 یوان در میلیون و توکن های خروجی 8 یوان در میلیون هزینه دارند. ارزیابی کاگی، DeepSeek V3 را در صدر مدل های متن باز قرار داده است، که نزدیک به Sonnet-3.5 و GPT-4o است. این دستاوردها نشان می دهد که DeepSeek V3 نه تنها در عملکرد بلکه در سرعت و هزینه نیز برتری دارد.
تعامل جامعه
این مدل برای آزمایش در پلتفرم رسمی در دسترس است و کد آن برای دانلود به صورت متن باز ارائه شده است. علاقه مندان به هوش مصنوعی DeepSeek V3 را آزمایش کرده اند، از جمله اجرای آن بر روی مک مینی های انباشته شده. توسعه دهندگان از توانایی این مدل در درک دستورالعمل های پیچیده بدون توضیحات صریح ابراز شگفتی کرده اند.
یکی از توسعه دهندگان با استفاده از DeepSeek V3 در مدت کوتاهی یک بازی با لوگوهای شرکت های هوش مصنوعی ایجاد کرده است. هزینه پایین اجرای DeepSeek V3 مورد توجه قرار گرفته است، به طوری که یکی از کاربران خاطرنشان کرده است که اجرای آن با سرعت 60 توکن در ثانیه تنها 2 دلار در روز هزینه دارد. این امر نشان دهنده دسترسی آسان و مقرون به صرفه به این مدل قدرتمند است.
جزئیات آموزش
آموزش DeepSeek V3 از طریق بهینه سازی الگوریتمی، چارچوبی و سخت افزاری انجام شده است. این مدل بر روی یک تریلیون توکن در 180,000 ساعت GPU آموزش داده شده و پیش آموزش آن در کمتر از دو ماه به پایان رسیده است. هزینه کل آموزش 2.788 میلیون ساعت GPU یا 5.576 میلیون دلار بوده است.
بهینه سازی های کلیدی شامل موارد زیر است:
- Load Balancing (توزیع بار): یک استراتژی جدید توزیع بار با شرایط بایاس برای هر متخصص در معماری MoE.
- Multi-Token Prediction (MTP) (پیش بینی چند توکنی): یک هدف آموزشی که عملکرد مدل را بهبود می بخشد و از طریق رمزگشایی فرضی، استنتاج سریع تر را امکان پذیر می کند.
- FP8 Training (آموزش FP8): استفاده از آموزش با دقت ترکیبی FP8، که امکان سنجی آن را برای مدل های بزرگ نشان می دهد.
- DualPipe: یک الگوریتم موازی خط لوله کارآمد که محاسبات و ارتباطات را همپوشانی می کند و سربار ارتباطات را کاهش می دهد.
معماری MoE شامل 256 متخصص مسیریابی و 1 متخصص مشترک است که هر توکن 8 متخصص را فعال می کند و حداکثر به 4 گره ارسال می شود. متخصصان اضافی برای متعادل کردن بار در طول استنتاج مستقر می شوند. قابلیت های استنتاج مدل با استخراج دانش از یک مدل زنجیره طولانی (DeepSeek R1) افزایش یافته است.
نتایج تجربی
DeepSeek V3 در معیارهای مختلف به عملکرد SOTA در میان مدل های متن باز دست یافته است. این مدل در آزمایش های "سوزن در انبار کاه" به خوبی عمل می کند و توانایی خود را در بازیابی اطلاعات خاص از زمینه های طولانی نشان می دهد. این امر نشان می دهد که DeepSeek V3 می تواند به طور موثر با اطلاعات طولانی و پیچیده کار کند.
منابع
- گزارش فنی: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3