- Published on
ڈیفیوژن ماڈل انفرنس اسکیلنگ نیا پیراڈائم
تعارف
بڑی لسانی ماڈلز (LLMs) میں حالیہ پیشرفتوں نے انفرنس کے دوران اسکیلنگ کی تاثیر کو ثابت کیا ہے۔ o1، o3، DeepSeek R1، QwQ، اور Step Reasoner mini جیسے ماڈلز نے دکھایا ہے کہ انفرنس کے دوران کمپیوٹیشن میں اضافہ کارکردگی کو نمایاں طور پر بہتر بنا سکتا ہے۔ اس سے یہ سوال پیدا ہوتا ہے: کیا یہ اصول ڈیفیوژن ماڈلز پر بھی لاگو کیا جا سکتا ہے؟
نیویارک یونیورسٹی میں ژی سائننگ کی سربراہی میں ایک ٹیم نے اسی سوال کی کھوج کی ہے۔ ایک عمومی سرچ فریم ورک کا استعمال کرتے ہوئے ایک منظم تحقیق کے ذریعے، انہوں نے پایا کہ انفرنس ٹائم اسکیلنگ واقعی ڈیفیوژن ماڈلز کے لیے موثر ہے۔ انفرنس کے دوران کمپیوٹیشن میں اضافہ پیدا ہونے والے نمونوں کے معیار میں نمایاں بہتری کا باعث بنتا ہے۔ مزید یہ کہ تصاویر کی پیچیدگی فریم ورک کے اندر مختلف اجزاء کے امتزاج کی اجازت دیتی ہے، جو مختلف ایپلی کیشن کے منظرناموں کے مطابق بنائے گئے ہیں۔
کلیدی نتائج
- انفرنس ٹائم اسکیلنگ ڈیفیوژن ماڈلز کے لیے موثر ہے: انفرنس کے دوران زیادہ کمپیوٹیشنل وسائل مختص کرنے سے اعلیٰ معیار کے نمونے حاصل ہوتے ہیں۔
- اجزاء کے امتزاج میں لچک: یہ فریم ورک مختلف اجزاء کی تشکیل کی اجازت دیتا ہے، جو مختلف ایپلی کیشنز کو پورا کرتا ہے۔
- ڈینائزنگ مراحل سے آگے: تحقیق سے پتہ چلتا ہے کہ نمونے لینے کے دوران بہتر شور کی تلاش NFE کو اسکیل کرنے کا ایک اور پہلو ہے، محض ڈینائزنگ مراحل کو بڑھانے سے پرے۔
- دو ڈیزائن محور: یہ فریم ورک دو اہم ڈیزائن محوروں پر مرکوز ہے:
- تصدیق کنندگان: سرچ کے عمل کے دوران رائے فراہم کرنا۔
- الگورتھم: بہتر شور کے امیدوار تلاش کرنا۔
تحقیقی طریقہ کار
ٹیم نے تصدیق کنندگان کے لیے تین مختلف منظرنامے تلاش کیے، مختلف استعمال کے معاملات کی تقلید کرتے ہوئے: 1۔ وہ منظرنامے جہاں حتمی تشخیص کے بارے میں مراعات یافتہ معلومات دستیاب ہوں۔ 2۔ وہ منظرنامے جہاں جنریشن کی رہنمائی کے لیے مشروط معلومات دستیاب ہوں۔ 3۔ وہ منظرنامے جہاں کوئی اضافی معلومات دستیاب نہیں ہیں۔
الگورتھم کے لیے، انہوں نے تفتیش کی: 1۔ رینڈم سرچ: امیدواروں کے ایک مقررہ سیٹ میں سے بہترین کا انتخاب کرنا۔ 2۔ زیرو آرڈر سرچ: تصدیق کنندہ کی رائے کا استعمال کرتے ہوئے شور کے امیدواروں کو بار بار بہتر بنانا۔ 3۔ پاتھ سرچ: تصدیق کنندہ کی رائے کا استعمال کرتے ہوئے ڈیفیوژن سیمپلنگ ٹراجیکٹریز کو بار بار بہتر بنانا۔
اس مطالعہ نے ابتدائی طور پر ان ڈیزائنوں کو نسبتاً سادہ امیج نیٹ کلاس کنڈیشنل جنریشن سیٹ اپ میں تلاش کیا۔ اس کے بعد، انہوں نے ان ڈیزائنوں کو بڑے پیمانے پر ٹیکسٹ کنڈیشنل جنریشن پر لاگو کیا اور اپنے مجوزہ فریم ورک کا جائزہ لیا۔
انفرنس ٹائم اسکیلنگ
یہ مقالہ ڈیفیوژن ماڈلز میں انفرنس ٹائم اسکیلنگ کے لیے ایک فریم ورک تجویز کرتا ہے، جس میں بہترین سیمپلنگ شور کی تلاش کو ایک چیلنج کے طور پر پیش کیا گیا ہے۔ اس عمل میں دو بنیادی اجزاء شامل ہیں:
- تصدیق کنندگان: یہ پہلے سے تربیت یافتہ ماڈلز ہیں جو تیار کردہ نمونوں کے معیار کا جائزہ لیتے ہیں۔ وہ تیار کردہ نمونے لیتے ہیں، ساتھ ہی اختیاری شرائط بھی، اور ایک اسکیلر سکور آؤٹ پٹ کرتے ہیں۔
- الگورتھم: یہ الگورتھم بہتر امیدوار نمونے تلاش کرنے کے لیے تصدیق کنندہ کے اسکور استعمال کرتے ہیں۔ یہ فنکشن ایک تصدیق کنندہ (V)، ایک پہلے سے تربیت یافتہ ڈیفیوژن ماڈل (_θ)، اور تیار کردہ نمونوں اور شرائط کا ایک سیٹ لیتا ہے، اور بہترین ابتدائی شور آؤٹ پٹ کرتا ہے۔
کل انفرنس بجٹ کو فنکشن ایویلیوایشنز (NFE) کی کل تعداد سے ماپا جاتا ہے، جس میں ڈینائزنگ مراحل اور تلاش کے اخراجات دونوں شامل ہیں۔
سرچ تصدیق کنندگان
محققین نے اوریکل تصدیق کنندہ سے آغاز کیا، جس کے پاس منتخب نمونوں کی حتمی تشخیص کے بارے میں مکمل معلومات موجود ہیں۔ امیج نیٹ کے لیے، اس میں FID اور IS جیسے میٹرکس شامل تھے۔ پھر انہوں نے CLIP اور DINO جیسے زیر نگرانی تصدیق کنندگان کے طور پر زیادہ قابل رسائی پہلے سے تربیت یافتہ ماڈلز کو تلاش کیا۔ ان ماڈلز کو نمونوں کی درجہ بندی کرنے کے لیے استعمال کیا گیا، جس میں کلاس لیبل کے مطابق سب سے زیادہ لاگٹ والا نمونہ منتخب کیا گیا۔
تاہم، انہوں نے مشاہدہ کیا کہ یہ درجہ بند، نقطہ وار کام کرتے ہوئے، FID اسکور کے مقاصد کے ساتھ جزوی طور پر ہی ہم آہنگ ہوتے ہیں۔ اس کی وجہ سے نمونے کے تغیر میں کمی اور کمپیوٹیشن میں اضافے کے ساتھ موڈ گر گیا۔ اس رجحان کو "تصدیق کنندہ ہیکنگ" کہا گیا، جسے رینڈم سرچ الگورتھم کی غیر محدود سرچ اسپیس نے تیز کیا تھا۔
دلچسپ بات یہ ہے کہ مطالعہ میں پایا گیا کہ تصدیق کنندگان کو مؤثر طریقے سے تلاش کی رہنمائی کے لیے مشروط معلومات کی ضرورت نہیں ہے۔ انہوں نے DINO/CLIP درجہ بندوں سے لاگٹس اور کم شور کی سطح پر x کی پیش گوئی اور آخری صاف نمونے کے درمیان فیچر اسپیس کی کوسائن مماثلت کے درمیان ایک مضبوط تعلق دیکھا۔ اس کی وجہ سے خود زیر نگرانی تصدیق کنندگان کا استعمال ہوا، جنہیں اضافی مشروط معلومات کی ضرورت نہیں ہے اور پھر بھی اسکیلنگ کا موثر رویہ ظاہر کیا گیا ہے۔
سرچ الگورتھم
تصدیق کنندہ ہیکنگ کو کم کرنے کے لیے، محققین نے زیادہ بہتر سرچ الگورتھم کو تلاش کیا جو بتدریج امیدوار نمونوں کو بہتر بناتے ہیں۔ اس میں ایک زیرو آرڈر سرچ طریقہ شامل تھا: 1۔ ایک محوری نقطہ کے طور پر ایک رینڈم گاسین شور سے شروع کرنا۔ 2۔ محوری نقطہ کے پڑوس میں N امیدواروں کو تلاش کرنا۔ 3۔ نمونے اور تصدیق کنندہ کے اسکور حاصل کرنے کے لیے ODE سالور کے ذریعے امیدواروں کو چلانا۔ 4۔ بہترین امیدوار کے ساتھ محوری نقطہ کو اپ ڈیٹ کرنا اور مراحل 1-3 کو دہرانا۔
انہوں نے پاتھ سرچ الگورتھم کی بھی تفتیش کی، جو نمونے لینے کے راستے پر تلاش کرنے کے امکان کو تلاش کرتا ہے: 1۔ N ابتدائی شور کے نمونوں کو نمونہ لینا اور ODE سالور کو شور کی سطح σ تک چلانا۔ 2۔ ہر نمونے میں شور ڈالنا اور آگے شور کرنے کے عمل کی تقلید کرنا۔ 3۔ ہر شور والے نمونے پر ODE سالور چلانا اور تصدیق کنندہ کے اسکور کی بنیاد پر ٹاپ N امیدواروں کو رکھنا، جب تک کہ ODE سالور σ=0 تک نہ پہنچ جائے۔ 4۔ باقی N نمونوں کو تصادفی طور پر تلاش کرنا اور بہترین کو رکھنا۔
زیرو آرڈر اور پاتھ سرچ دونوں الگورتھم رینڈم سرچ کے مقابلے میں ایک مضبوط مقامییت کو برقرار رکھتے ہیں۔
ٹیکسٹ ٹو امیج منظرناموں میں اسکیلنگ
ٹیم نے بڑے پیمانے پر ٹیکسٹ ٹو امیج ٹاسک میں سرچ فریم ورک کی اسکیلنگ صلاحیتوں کا جائزہ لیا۔ انہوں نے تشخیص کے لیے DrawBench اور T2I-CompBench ڈیٹا سیٹ استعمال کیے، جس میں FLUX.1-dev ماڈل ریڑھ کی ہڈی کے طور پر استعمال ہوا۔ انہوں نے نگرانی والے تصدیق کنندگان کے انتخاب کو بھی بڑھایا، جس میں جمالیاتی سکور پیشن گوئی کرنے والا، CLIPScore، اور ImageReward شامل ہیں۔ اس کے علاوہ، انہوں نے ان تین تصدیق کنندگان کو ملا کر ایک تصدیق کنندہ جوڑ بھی بنایا۔
تجزیہ: تصدیق کنندہ ٹاسک الائنمنٹ
اس مطالعہ نے مختلف ڈیٹا سیٹوں پر مختلف تصدیق کنندہ الگورتھم کے امتزاج کے نتائج کا موازنہ کیا۔ DrawBench پر، انہوں نے پایا کہ تمام تصدیق کنندگان کا استعمال عام طور پر نمونے کے معیار کو بہتر بناتا ہے۔ تاہم، انہوں نے مشاہدہ کیا کہ جمالیاتی اور CLIP تصدیق کنندگان کو تنہا استعمال کرنے سے ان کے تعصبات زیادہ فٹ ہو سکتے ہیں، جس کے نتیجے میں ایک دوسرے پر منفی اثرات مرتب ہو سکتے ہیں۔ اس کی وجہ ان کی تشخیص کے مرکز میں عدم مطابقت ہے: جمالیاتی سکور بصری معیار پر توجہ مرکوز کرتا ہے، اکثر انتہائی اسٹائلائزڈ تصاویر کو ترجیح دیتا ہے، جبکہ CLIP بصری ٹیکسٹ الائنمنٹ کو ترجیح دیتا ہے، بعض اوقات بصری معیار کو قربان کر دیتا ہے۔
انہوں نے نوٹ کیا کہ کچھ تصدیق کنندگان مخصوص ٹاسک کے لیے زیادہ موزوں ہیں، اور ایک تصدیق کنندہ کی تاثیر اس کی ٹاسک کی ضروریات کے ساتھ ہم آہنگی پر منحصر ہے۔
الگورتھم کی کارکردگی
تینوں سرچ الگورتھم (رینڈم، زیرو آرڈر اور پاتھ) نے DrawBench پر نمونے لینے کے معیار کو مؤثر طریقے سے بہتر کیا۔ تاہم، رینڈم سرچ نے بعض پہلوؤں میں دیگر دو طریقوں کی مقامی نوعیت کی وجہ سے بہتر کارکردگی کا مظاہرہ کیا۔ رینڈم سرچ تصدیق کنندہ تعصب کی طرف زیادہ تیزی سے تبدیل ہوگئی، جبکہ دیگر دو الگورتھم کو بہترین امیدواروں سے کم پر بہتری کی ضرورت ہے۔
فائن ٹیوننگ کے ساتھ مطابقت
ٹیم نے فائن ٹیونڈ ماڈلز کے ساتھ اپنے سرچ میتھڈ کی مطابقت کی چھان بین کی۔ انہوں نے ایک DPO-فائن ٹیونڈ اسٹیبل ڈیفیوژن XL ماڈل استعمال کیا اور پایا کہ سرچ میتھڈ کو مختلف ماڈلز تک عام کیا جا سکتا ہے اور پہلے سے ہی سیدھ میں لائے گئے ماڈلز کی کارکردگی کو بہتر بنایا جا سکتا ہے۔
انفرنس کمپیوٹیشن کے مختلف جہتوں کے اثرات
اس مطالعہ میں اس بات کا جائزہ لیا گیا کہ انفرنس کمپیوٹیشن کے مختلف پہلو نتائج کو کس طرح متاثر کرتے ہیں:
- تلاش کے تکرار کی تعداد: تکرار میں اضافہ شور کو بہترین کے قریب لاتا ہے۔
- تلاش کے ہر تکرار کے حساب کتاب: ہر تکرار میں ڈینائزنگ مراحل کی تعداد کو ایڈجسٹ کرنے سے مختلف کمپیوٹیشنلی بہترین علاقے ظاہر ہوتے ہیں۔
- حتمی جنریشن کمپیوٹیشن: ٹیم نے حتمی ڈینائزنگ مراحل کے لیے بہترین سیٹنگز استعمال کیں تاکہ حتمی نمونے کے اعلیٰ ترین معیار کو یقینی بنایا جا سکے۔
کمپیوٹیشن میں سرمایہ کاری کی تاثیر
محققین نے چھوٹے ڈیفیوژن ماڈلز پر انفرنس ٹائم اسکیلنگ کی تاثیر کا جائزہ لیا۔ انہوں نے پایا کہ امیج نیٹ کے لیے، چھوٹے ماڈلز کو اسکیل کرنا بہت موثر ہو سکتا ہے۔ بعض صورتوں میں، چھوٹے ماڈل پر تلاش کرنا بغیر تلاش کے بڑے ماڈلز سے بہتر کارکردگی دکھا سکتا ہے۔ تاہم، تاثیر چھوٹے ماڈل کی بنیادی کارکردگی پر منحصر ہے۔
ٹیکسٹ پر مبنی سیٹنگز میں، PixArt-Σ، صرف کمپیوٹیشن کا ایک حصہ استعمال کرتے ہوئے، FLUX-1.dev سے بہتر کارکردگی کا مظاہرہ کیا۔ ان نتائج سے پتہ چلتا ہے کہ تربیت کے دوران خرچ کیے جانے والے اہم کمپیوٹیشنل وسائل کو جنریشن کے دوران کم مقدار میں کمپیوٹیشن کے ذریعے پورا کیا جا سکتا ہے، جس کے نتیجے میں زیادہ موثر طریقے سے اعلیٰ معیار کے نمونے حاصل ہوتے ہیں۔