- Published on
ڈیپ سیک وی 3: ایک انقلابی اوپن سورس ماڈل
ڈیپ سیک وی 3: ایک انقلابی اوپن سورس ماڈل
ڈیپ سیک وی 3، ایک 671B پیرامیٹر مکسچر آف ایکسپرٹس (MoE) ماڈل، کو اوپن سورس کیا گیا ہے، جس نے AI کمیونٹی میں ہلچل مچا دی ہے۔ اس ماڈل کو 14.8T اعلیٰ معیار کے ٹوکنز پر تربیت دی گئی ہے، اور انفرنس کے دوران صرف 37B پیرامیٹرز ایکٹیویٹ ہوتے ہیں۔
یہ ماڈل اوپن سورس ماڈلز میں اسٹیٹ آف دی آرٹ (SOTA) کارکردگی حاصل کرتا ہے، جو لاما 3.1 405B سے آگے ہے اور GPT-4o اور Claude 3.5 Sonnet جیسے ٹاپ ماڈلز کا مقابلہ کرتا ہے۔
کم لاگت والی تربیت
ڈیپ سیک وی 3 کی تربیت میں 2.8 ملین سے بھی کم GPU گھنٹے درکار تھے، جو لاما 3 405B کے 30.8 ملین GPU گھنٹوں کے بالکل برعکس ہے۔ ڈیپ سیک وی 3 کی تربیت کی کل لاگت تقریباً 5.576 ملین ڈالر تھی، جبکہ 7B لاما 2 ماڈل کی تربیت کی لاگت 760,000 ڈالر ہے۔ اس کم لاگت کی وجہ سے بہتر الگورتھم، فریم ورک اور ہارڈ ویئر ہیں۔ اوپن اے آئی کے بانی رکن کرپتھی نے نوٹ کیا کہ ڈیپ سیک وی 3 نمایاں طور پر کم وسائل کے ساتھ موازنہ کارکردگی حاصل کرتا ہے، جو ڈیٹا اور الگورتھم میں اصلاح کی صلاحیت کو اجاگر کرتا ہے۔
کارکردگی اور جانچ
ڈیپ سیک وی 3 کو جیا یانگ چنگ اور میٹا کے تیان یونڈونگ جیسے AI ماہرین نے سراہا ہے۔ یہ مختلف بینچ مارکس میں دیگر اوپن سورس ماڈلز جیسے Qwen2.5-72B اور Llama-3.1-405B سے بہتر کارکردگی کا مظاہرہ کرتا ہے۔ ماڈل کی کارکردگی ٹاپ کلوزڈ سورس ماڈلز جیسے GPT-4o اور Claude-3.5-Sonnet کے برابر ہے۔ ڈیپ سیک وی 3 فی سیکنڈ 60 ٹوکنز کی شرح سے ٹوکنز تیار کرتا ہے، جو 3 گنا رفتار میں بہتری ہے۔ API کی قیمتیں بھی بہت مسابقتی ہیں، ان پٹ ٹوکنز کی قیمت 0.5-2 RMB فی ملین اور آؤٹ پٹ ٹوکنز کی قیمت 8 RMB فی ملین ہے۔ کاگی کی تشخیص ڈیپ سیک وی 3 کو اوپن سورس ماڈلز میں سرفہرست رکھتی ہے، جو Sonnet-3.5 اور GPT-4o کے قریب ہے۔
کمیونٹی کی شمولیت
ماڈل سرکاری پلیٹ فارم پر جانچ کے لیے دستیاب ہے، کوڈ ڈاؤن لوڈ کے لیے اوپن سورس کیا گیا ہے۔ AI کے شوقین ڈیپ سیک وی 3 کے ساتھ تجربات کر رہے ہیں، بشمول اسے اسٹیکڈ میک منی پر چلانا۔ ڈویلپرز نے ماڈل کی پیچیدہ ہدایات کو بغیر کسی وضاحت کے سمجھنے کی صلاحیت پر حیرت کا اظہار کیا ہے۔ ایک ڈویلپر نے ڈیپ سیک وی 3 کے ساتھ AI کمپنی کے لوگوز کا استعمال کرتے ہوئے ایک مختصر وقت میں ایک گیم بنایا۔ ڈیپ سیک وی 3 کو چلانے کی کم لاگت کو نمایاں کیا گیا ہے، ایک صارف نے نوٹ کیا ہے کہ اسے 60 ٹوکن فی سیکنڈ پر چلانے میں صرف 2 ڈالر یومیہ لاگت آتی ہے۔
تربیت کی تفصیلات
ڈیپ سیک وی 3 کی تربیت کو الگورتھمک، فریم ورک اور ہارڈویئر کی بہتری کے ذریعے بہتر بنایا گیا تھا۔ ماڈل کو 180,000 GPU گھنٹوں میں ایک ٹریلین ٹوکنز پر تربیت دی گئی تھی، اور پری ٹریننگ دو ماہ سے بھی کم وقت میں مکمل ہوئی تھی۔ تربیت کی کل لاگت 2.788 ملین GPU گھنٹے، یا 5.576 ملین ڈالر تھی۔
اہم اصلاحات میں شامل ہیں:
- لوڈ بیلنسنگ: MoE فن تعمیر میں ہر ماہر کے لیے تعصب کی شرائط کے ساتھ ایک نیا لوڈ بیلنسنگ حکمت عملی۔
- ملٹی ٹوکن پریڈکشن (MTP): ایک تربیتی مقصد جو ماڈل کی کارکردگی کو بہتر بناتا ہے اور قیاس آرائی پر مبنی ڈی کوڈنگ کے ذریعے تیز انفرنس کو قابل بناتا ہے۔
- FP8 ٹریننگ: FP8 مکسڈ پریسیشن ٹریننگ کا استعمال، جو بڑے پیمانے پر ماڈلز کے لیے اس کی فزیبلٹی کو ظاہر کرتا ہے۔
- DualPipe: ایک موثر پائپ لائن متوازی الگورتھم جو حساب اور مواصلت کو اوورلیپ کرتا ہے، جس سے مواصلت کا بوجھ کم ہوتا ہے۔
MoE فن تعمیر میں 256 روٹنگ ماہرین اور 1 مشترکہ ماہر شامل ہیں، ہر ٹوکن 8 ماہرین کو چالو کرتا ہے اور زیادہ سے زیادہ 4 نوڈس پر بھیجا جاتا ہے۔ انفرنس کے دوران لوڈ کو متوازن کرنے کے لیے فالتو ماہرین کو تعینات کیا جاتا ہے۔ ماڈل کی انفرنس صلاحیتوں کو ایک طویل زنجیر والے ماڈل (ڈیپ سیک R1) سے علم کشید کرکے بڑھایا گیا تھا۔
تجرباتی نتائج
ڈیپ سیک وی 3 مختلف بینچ مارکس میں اوپن سورس ماڈلز میں SOTA کارکردگی حاصل کرتا ہے۔ ماڈل "نیڈل ان اے ہیسٹیک" تجربات میں اچھی کارکردگی کا مظاہرہ کرتا ہے، جو طویل سیاق و سباق سے مخصوص معلومات کو بازیافت کرنے کی صلاحیت کو ظاہر کرتا ہے۔
وسائل
- تکنیکی رپورٹ: DeepSeek_V3.pdf
- ہگنگ فیس: DeepSeek-V3