Published on

ڈیپ سیک کا نیا ماڈل غیر متوقع طور پر سامنے آیا: پروگرامنگ بینچ مارکس کلاڈ 3.5 سونیٹ سے آگے نکل گئے

مصنفین
  • avatar
    نام
    Ajax
    Twitter

ڈیپ سیک وی 3 کی تفصیلات

ڈیپ سیک وی 3، ایک نیا اور غیر اعلانیہ ماڈل، لیک ہو گیا ہے اور اپنی غیر معمولی کارکردگی کی وجہ سے توجہ کا مرکز بن گیا ہے۔ اس ماڈل نے نہ صرف اپنی کارکردگی سے سب کو حیران کیا ہے بلکہ کئی دیگر ماڈلز کو بھی پیچھے چھوڑ دیا ہے۔

اہم خصوصیات

  • ڈیپ سیک وی 3 نے ایڈر ملٹی لنگوئل پروگرامنگ بینچ مارک میں کلاڈ 3.5 سونیٹ کو شکست دی ہے۔
  • یہ ماڈل لائیو بینچ ایویلیوایشن پلیٹ فارم پر سب سے مضبوط اوپن سورس ایل ایل ایم ہے۔
  • اس کی تعمیر میں 685 بلین پیرامیٹرز اور ایم او ای (مکسچر آف ایکسپرٹس) کا ڈھانچہ موجود ہے۔
  • یہ ماڈل پچھلے ورژن سے کافی بہتر ہے۔

پس منظر

  • اس ماڈل کے لیک ہونے کی خبر سب سے پہلے ریڈٹ کے صارفین نے دی، جنہوں نے اس ماڈل کو APIs اور ویب صفحات پر دستیاب پایا۔
  • ڈیپ سیک وی 3 کی کارکردگی کا جائزہ مختلف بینچ مارکس، جیسے ایڈر اور لائیو بینچ پر کیا گیا ہے۔
  • ماڈل کے اوپن سورس ویٹس ہگنگ فیس پر پہلے سے ہی دستیاب ہیں، اگرچہ ماڈل کارڈ ابھی تک دستیاب نہیں ہے۔

ڈیپ سیک وی 3 کی تکنیکی تفصیلات

ماڈل کی تعمیر

  • پیرامیٹر سائز: 685 بلین پیرامیٹرز
  • ایم او ای ڈھانچہ: 256 ماہرین کے ساتھ مکسچر آف ایکسپرٹس آرکیٹیکچر
  • راؤٹنگ: روٹنگ کے لیے سگموئڈ فنکشن کا استعمال، ٹاپ 8 ماہرین کا انتخاب (ٹاپ-کے=8)
  • کانٹیکسٹ ونڈو: 64K کانٹیکسٹ کو سپورٹ کرتا ہے، جس میں ڈیفالٹ 4K اور زیادہ سے زیادہ 8K ہے۔
  • ٹوکن جنریشن کی رفتار: تقریباً 60 ٹوکن فی سیکنڈ

وی 2 کے مقابلے میں اہم تعمیراتی تبدیلیاں

  • گیٹ فنکشن: وی 3 ماہر کے انتخاب کے لیے سوفٹ میکس کی بجائے سگموئڈ فنکشن استعمال کرتا ہے۔ یہ ماڈل کو ماہرین کے ایک بڑے مجموعے میں سے انتخاب کرنے کی اجازت دیتا ہے، جبکہ سوفٹ میکس کچھ کو ترجیح دیتا ہے۔
  • ٹاپ-کے سلیکشن: وی 3 ٹاپ-کے سلیکشن کے لیے ایک نیا noaux_tc طریقہ متعارف کرواتا ہے، جس میں معاون نقصان کی ضرورت نہیں ہوتی ہے۔ یہ تربیت کو آسان بناتا ہے اور براہ راست اہم ٹاسک کے نقصان کے فنکشن کا استعمال کرکے کارکردگی کو بہتر بناتا ہے۔
  • ماہر اسکور ایڈجسٹمنٹ: ایک نیا پیرامیٹر، e_score_correction_bias، ماہر اسکور کو ایڈجسٹ کرنے کے لیے شامل کیا گیا ہے، جس سے ماہر کے انتخاب اور ماڈل کی تربیت کے دوران بہتر کارکردگی ہوتی ہے۔

وی 2 اور وی 2.5 سے موازنہ

  • وی 3 بمقابلہ وی 2: وی 3 بنیادی طور پر وی 2 کا ایک بہتر ورژن ہے، جس میں تمام پیرامیٹرز میں نمایاں بہتری ہے۔
  • وی 3 بمقابلہ وی 2.5: وی 3 کنفیگریشن کے لحاظ سے وی 2.5 سے بہتر ہے، جس میں زیادہ ماہرین، بڑے انٹرمیڈیٹ لیئر سائز، اور فی ٹوکن زیادہ ماہرین شامل ہیں۔

صارف کی جانچ اور مشاہدات

ابتدائی ٹیسٹ

  • سائمن ولیسن، ایک ڈویلپر، نے ڈیپ سیک وی 3 کی جانچ کی اور پایا کہ اس نے خود کو اوپن اے آئی کے جی پی ٹی-4 آرکیٹیکچر پر مبنی بتایا۔
  • ماڈل کو امیج جنریشن کے لیے بھی ٹیسٹ کیا گیا، جس میں ایک سائیکل پر سوار پیلیکن کی ایس وی جی امیج بنائی گئی۔

غیر متوقع خود شناسی

  • متعدد صارفین نے اطلاع دی ہے کہ ڈیپ سیک وی 3 نے خود کو اوپن اے آئی ماڈلز پر مبنی بتایا ہے، ممکنہ طور پر تربیت کے دوران اوپن اے آئی ماڈل کے جوابات کے استعمال کی وجہ سے۔

برادری کا رد عمل

  • ڈیپ سیک وی 3 کی غیر متوقع ریلیز اور مضبوط کارکردگی نے کمیونٹی میں جوش و خروش پیدا کیا ہے۔
  • کچھ صارفین کا خیال ہے کہ ڈیپ سیک وی 3 کی کارکردگی اوپن اے آئی کے ماڈلز سے بہتر ہے، خاص طور پر اوپن سورس ڈومین میں۔

اضافی وسائل