- Published on
مقیاسبندی استنتاج مدلهای انتشار پارادایم جدید
مقدمه
پیشرفتهای اخیر در مدلهای زبانی بزرگ (LLM) اثربخشی مقیاسبندی در طول استنتاج را نشان داده است. مدلهایی مانند o1، o3، DeepSeek R1، QwQ و Step Reasoner mini نشان دادهاند که افزایش محاسبات در طول استنتاج میتواند به طور قابل توجهی عملکرد را بهبود بخشد. این سوال مطرح میشود: آیا این اصل را میتوان برای مدلهای انتشار نیز به کار برد؟
تیمی به سرپرستی Xie Saining در دانشگاه نیویورک این سوال را بررسی کرده است. از طریق یک بررسی سیستماتیک با استفاده از یک چارچوب جستجوی کلی، آنها دریافتند که مقیاسبندی در زمان استنتاج برای مدلهای انتشار نیز موثر است. افزایش محاسبات در طول استنتاج منجر به بهبود قابل توجهی در کیفیت نمونههای تولید شده میشود. علاوه بر این، پیچیدگی تصاویر امکان ترکیبهای مختلفی از اجزا را در چارچوب فراهم میکند که متناسب با سناریوهای مختلف کاربردی است.
یافتههای کلیدی
- مقیاسبندی در زمان استنتاج برای مدلهای انتشار موثر است: اختصاص منابع محاسباتی بیشتر در طول استنتاج منجر به نمونههای با کیفیت بالاتر میشود.
- انعطافپذیری در ترکیب اجزا: چارچوب امکان تنظیمات مختلف اجزا را فراهم میکند که متناسب با کاربردهای مختلف است.
- فراتر از مراحل نویززدایی: این تحقیق نشان میدهد که جستجوی نویز بهتر در طول نمونهبرداری، بعد دیگری برای مقیاسبندی NFE فراتر از افزایش مراحل نویززدایی است.
- دو محور طراحی: چارچوب بر دو محور طراحی کلیدی متمرکز است:
- تأییدکنندهها: ارائه بازخورد در طول فرآیند جستجو.
- الگوریتمها: یافتن کاندیداهای نویز بهتر.
روش تحقیق
این تیم سه سناریوی مختلف برای تأییدکنندهها را بررسی کرد که سناریوهای مختلف استفاده را شبیهسازی میکردند:
- سناریوهایی که در آن اطلاعات ممتاز در مورد ارزیابی نهایی در دسترس است.
- سناریوهایی که در آن اطلاعات شرطی برای هدایت تولید در دسترس است.
- سناریوهایی که در آن هیچ اطلاعات اضافی در دسترس نیست.
برای الگوریتمها، آنها موارد زیر را بررسی کردند:
- جستجوی تصادفی: انتخاب بهترین از یک مجموعه ثابت از کاندیداها.
- جستجوی مرتبه صفر: بهبود تکراری کاندیداهای نویز با استفاده از بازخورد تأییدکننده.
- جستجوی مسیر: بهبود تکراری مسیرهای نمونهبرداری انتشار با استفاده از بازخورد تأییدکننده.
این مطالعه در ابتدا این طرحها را در یک تنظیم نسبتاً ساده تولید مشروط به کلاس ImageNet بررسی کرد. پس از آن، آنها این طرحها را در مقیاس بزرگتر تولید مشروط به متن به کار بردند و چارچوب پیشنهادی خود را ارزیابی کردند.
مقیاسبندی زمان استنتاج
این مقاله یک چارچوب برای مقیاسبندی زمان استنتاج در مدلهای انتشار پیشنهاد میکند و چالش را به عنوان جستجوی نویز نمونهبرداری بهینه مطرح میکند. این فرآیند شامل دو جزء اصلی است:
- تأییدکنندهها: اینها مدلهای از پیش آموزشدیده هستند که کیفیت نمونههای تولید شده را ارزیابی میکنند. آنها نمونههای تولید شده را به همراه شرایط اختیاری دریافت میکنند و یک امتیاز اسکالر خروجی میدهند.
- الگوریتمها: این الگوریتمها از امتیازهای تأییدکننده برای یافتن نمونههای کاندید بهتر استفاده میکنند. تابع یک تأییدکننده (V)، یک مدل انتشار از پیش آموزشدیده (_θ) و مجموعهای از نمونههای تولید شده و شرایط را دریافت میکند و بهترین نویز اولیه را خروجی میدهد.
بودجه کل استنتاج با تعداد کل ارزیابیهای تابع (NFE) اندازهگیری میشود که شامل مراحل نویززدایی و هزینههای جستجو است.
تأییدکنندههای جستجو
محققان با یک تأییدکننده Oracle شروع کردند که اطلاعات کاملی در مورد ارزیابی نهایی نمونههای انتخاب شده دارد. برای ImageNet، این شامل معیارهایی مانند FID و IS بود. سپس آنها مدلهای از پیش آموزشدیده در دسترستر را به عنوان تأییدکنندههای نظارت شده مانند CLIP و DINO بررسی کردند. این مدلها برای طبقهبندی نمونهها، انتخاب نمونه با بالاترین لاجیت مربوط به برچسب کلاس استفاده شدند.
با این حال، آنها مشاهده کردند که این طبقهبندیکنندهها که بهصورت نقطهای عمل میکنند، فقط تا حدی با اهداف امتیاز FID همسو هستند. این امر منجر به کاهش واریانس نمونه و فروپاشی حالت با افزایش محاسبات شد. این پدیده که "هک کردن تأییدکننده" نامیده میشود، با فضای جستجوی نامحدود الگوریتم جستجوی تصادفی تسریع شد. جالب اینجاست که این مطالعه نشان داد که تأییدکنندهها لزوماً نیازی به اطلاعات شرطی برای هدایت موثر جستجو ندارند. آنها همبستگی قوی بین لاجیتهای طبقهبندیکنندههای DINO/CLIP و شباهت کسینوسی فضای ویژگی بین پیشبینی x در سطح نویز پایین و نمونه تمیز نهایی مشاهده کردند. این امر منجر به استفاده از تأییدکنندههای خود-نظارتی شد که نیازی به اطلاعات شرطی اضافی ندارند و همچنان رفتار مقیاسبندی موثری از خود نشان میدهند.
الگوریتمهای جستجو
برای کاهش هک کردن تأییدکننده، محققان الگوریتمهای جستجوی دقیقتری را بررسی کردند که نمونههای کاندید را به تدریج بهینه میکنند. این شامل یک روش جستجوی مرتبه صفر بود:
- شروع با یک نویز گاوسی تصادفی به عنوان نقطه محوری.
- یافتن N کاندیدا در همسایگی نقطه محوری.
- اجرای کاندیداها از طریق حل کننده ODE برای به دست آوردن نمونهها و امتیازهای تأییدکننده.
- به روز رسانی نقطه محوری با بهترین کاندیدا و تکرار مراحل 1-3.
آنها همچنین یک الگوریتم جستجوی مسیر را بررسی کردند که امکان جستجو در امتداد مسیر نمونهبرداری را بررسی میکند:
- نمونهبرداری از N نمونه نویز اولیه و اجرای حل کننده ODE تا سطح نویز σ.
- افزودن نویز به هر نمونه و شبیهسازی یک فرآیند نویزدهی رو به جلو.
- اجرای حل کننده ODE بر روی هر نمونه نویزدار و نگه داشتن N کاندیدای برتر بر اساس امتیازهای تأییدکننده، تکرار تا زمانی که حل کننده ODE به σ=0 برسد.
- جستجوی تصادفی N نمونه باقی مانده و نگه داشتن بهترین آنها.
هر دو الگوریتم جستجوی مرتبه صفر و مسیر در مقایسه با جستجوی تصادفی، محلی بودن قوی را حفظ میکنند.
مقیاسبندی در سناریوهای تبدیل متن به تصویر
این تیم قابلیتهای مقیاسبندی چارچوب جستجو را در وظایف تبدیل متن به تصویر در مقیاس بزرگتر بررسی کردند. آنها از مجموعه دادههای DrawBench و T2I-CompBench برای ارزیابی، با مدل FLUX.1-dev به عنوان پایه استفاده کردند. آنها همچنین انتخاب تأییدکنندههای نظارت شده را گسترش دادند، از جمله Aesthetic Score Predictor، CLIPScore و ImageReward. علاوه بر این، آنها یک Verifier Ensemble را با ترکیب این سه تأییدکننده ایجاد کردند.
تجزیه و تحلیل: همسویی تأییدکننده-وظیفه
این مطالعه نتایج ترکیبهای مختلف تأییدکننده-الگوریتم را در مجموعه دادههای مختلف مقایسه کرد. در DrawBench، آنها دریافتند که استفاده از همه تأییدکنندهها به طور کلی کیفیت نمونه را بهبود میبخشد. با این حال، آنها مشاهده کردند که استفاده از تأییدکنندههای Aesthetic و CLIP به صورت جداگانه میتواند منجر به برازش بیش از حد تعصبات آنها شود و در نتیجه تأثیرات منفی بر یکدیگر داشته باشد. این ناشی از عدم تطابق در تمرکز ارزیابی آنها است: امتیاز زیبایی بر کیفیت بصری متمرکز است و اغلب تصاویر بسیار سبکدار را ترجیح میدهد، در حالی که CLIP همسویی بصری-متنی را در اولویت قرار میدهد و گاهی اوقات کیفیت بصری را فدا میکند. آنها خاطرنشان کردند که برخی از تأییدکنندهها برای وظایف خاص مناسبتر هستند و اثربخشی یک تأییدکننده به همسویی آن با الزامات وظیفه بستگی دارد.
عملکرد الگوریتم
هر سه الگوریتم جستجو (تصادفی، مرتبه صفر و مسیر) به طور موثر کیفیت نمونهبرداری را در DrawBench بهبود بخشیدند. با این حال، جستجوی تصادفی به دلیل ماهیت محلی دو روش دیگر، در برخی از جنبهها عملکرد بهتری داشت. جستجوی تصادفی سریعتر به تعصب تأییدکننده همگرا شد، در حالی که دو الگوریتم دیگر نیاز به بهبود در کاندیداهای کمتر از حد مطلوب دارند.
سازگاری با تنظیم دقیق
این تیم سازگاری روش جستجوی خود را با مدلهای تنظیم دقیق بررسی کردند. آنها از یک مدل Stable Diffusion XL تنظیم شده با DPO استفاده کردند و دریافتند که روش جستجو میتواند برای مدلهای مختلف تعمیم داده شود و عملکرد مدلهای از قبل همسو شده را بهبود بخشد.
اثرات ابعاد مختلف محاسبات استنتاج
این مطالعه بررسی کرد که چگونه جنبههای مختلف محاسبات استنتاج بر نتایج تأثیر میگذارد:
- تعداد تکرارهای جستجو: افزایش تکرارها نویز را به بهینه نزدیکتر میکند.
- محاسبات در هر تکرار جستجو: تنظیم تعداد مراحل نویززدایی در هر تکرار، مناطق بهینه محاسباتی متفاوتی را نشان میدهد.
- محاسبات تولید نهایی: تیم از تنظیمات بهینه برای مراحل نویززدایی نهایی برای اطمینان از بالاترین کیفیت نمونه نهایی استفاده کرد.
اثربخشی سرمایهگذاری در محاسبات
محققان اثربخشی مقیاسبندی در زمان استنتاج را بر روی مدلهای انتشار کوچکتر بررسی کردند. آنها دریافتند که برای ImageNet، مقیاسبندی مدلهای کوچکتر میتواند بسیار کارآمد باشد. در برخی موارد، جستجو در یک مدل کوچکتر میتواند از مدلهای بزرگتر بدون جستجو بهتر عمل کند. با این حال، اثربخشی به عملکرد پایه مدل کوچکتر بستگی دارد.
در تنظیمات مبتنی بر متن، PixArt-Σ، با استفاده از تنها کسری از محاسبات، از FLUX-1.dev بهتر عمل کرد. این نتایج نشان میدهد که منابع محاسباتی قابل توجهی که در طول آموزش صرف میشود، میتواند با مقادیر کمتری از محاسبات در طول تولید جبران شود و در نتیجه نمونههای با کیفیت بالاتری به طور کارآمدتر تولید شود.