مقیاس‌بندی استنتاج مدل‌های انتشار پارادایم جدید

مقدمه

پیشرفت‌های اخیر در مدل‌های زبانی بزرگ (LLM) اثربخشی مقیاس‌بندی در طول استنتاج را نشان داده است. مدل‌هایی مانند o1، o3، DeepSeek R1، QwQ و Step Reasoner mini نشان داده‌اند که افزایش محاسبات در طول استنتاج می‌تواند به طور قابل توجهی عملکرد را بهبود بخشد. این سوال مطرح می‌شود: آیا این اصل را می‌توان برای مدل‌های انتشار نیز به کار برد؟

تیمی به سرپرستی Xie Saining در دانشگاه نیویورک این سوال را بررسی کرده است. از طریق یک بررسی سیستماتیک با استفاده از یک چارچوب جستجوی کلی، آنها دریافتند که مقیاس‌بندی در زمان استنتاج برای مدل‌های انتشار نیز موثر است. افزایش محاسبات در طول استنتاج منجر به بهبود قابل توجهی در کیفیت نمونه‌های تولید شده می‌شود. علاوه بر این، پیچیدگی تصاویر امکان ترکیب‌های مختلفی از اجزا را در چارچوب فراهم می‌کند که متناسب با سناریوهای مختلف کاربردی است.

یافته‌های کلیدی

مقیاس‌بندی در زمان استنتاج برای مدل‌های انتشار موثر است: اختصاص منابع محاسباتی بیشتر در طول استنتاج منجر به نمونه‌های با کیفیت بالاتر می‌شود.
انعطاف‌پذیری در ترکیب اجزا: چارچوب امکان تنظیمات مختلف اجزا را فراهم می‌کند که متناسب با کاربردهای مختلف است.
فراتر از مراحل نویززدایی: این تحقیق نشان می‌دهد که جستجوی نویز بهتر در طول نمونه‌برداری، بعد دیگری برای مقیاس‌بندی NFE فراتر از افزایش مراحل نویززدایی است.
دو محور طراحی: چارچوب بر دو محور طراحی کلیدی متمرکز است:
- تأییدکننده‌ها: ارائه بازخورد در طول فرآیند جستجو.
- الگوریتم‌ها: یافتن کاندیداهای نویز بهتر.

روش تحقیق

این تیم سه سناریوی مختلف برای تأییدکننده‌ها را بررسی کرد که سناریوهای مختلف استفاده را شبیه‌سازی می‌کردند:

سناریوهایی که در آن اطلاعات ممتاز در مورد ارزیابی نهایی در دسترس است.
سناریوهایی که در آن اطلاعات شرطی برای هدایت تولید در دسترس است.
سناریوهایی که در آن هیچ اطلاعات اضافی در دسترس نیست.

برای الگوریتم‌ها، آنها موارد زیر را بررسی کردند:

جستجوی تصادفی: انتخاب بهترین از یک مجموعه ثابت از کاندیداها.
جستجوی مرتبه صفر: بهبود تکراری کاندیداهای نویز با استفاده از بازخورد تأییدکننده.
جستجوی مسیر: بهبود تکراری مسیرهای نمونه‌برداری انتشار با استفاده از بازخورد تأییدکننده.

این مطالعه در ابتدا این طرح‌ها را در یک تنظیم نسبتاً ساده تولید مشروط به کلاس ImageNet بررسی کرد. پس از آن، آنها این طرح‌ها را در مقیاس بزرگتر تولید مشروط به متن به کار بردند و چارچوب پیشنهادی خود را ارزیابی کردند.

مقیاس‌بندی زمان استنتاج

این مقاله یک چارچوب برای مقیاس‌بندی زمان استنتاج در مدل‌های انتشار پیشنهاد می‌کند و چالش را به عنوان جستجوی نویز نمونه‌برداری بهینه مطرح می‌کند. این فرآیند شامل دو جزء اصلی است:

تأییدکننده‌ها: اینها مدل‌های از پیش آموزش‌دیده هستند که کیفیت نمونه‌های تولید شده را ارزیابی می‌کنند. آنها نمونه‌های تولید شده را به همراه شرایط اختیاری دریافت می‌کنند و یک امتیاز اسکالر خروجی می‌دهند.
الگوریتم‌ها: این الگوریتم‌ها از امتیازهای تأییدکننده برای یافتن نمونه‌های کاندید بهتر استفاده می‌کنند. تابع یک تأییدکننده (V)، یک مدل انتشار از پیش آموزش‌دیده (_θ) و مجموعه‌ای از نمونه‌های تولید شده و شرایط را دریافت می‌کند و بهترین نویز اولیه را خروجی می‌دهد.

بودجه کل استنتاج با تعداد کل ارزیابی‌های تابع (NFE) اندازه‌گیری می‌شود که شامل مراحل نویززدایی و هزینه‌های جستجو است.

تأییدکننده‌های جستجو

محققان با یک تأییدکننده Oracle شروع کردند که اطلاعات کاملی در مورد ارزیابی نهایی نمونه‌های انتخاب شده دارد. برای ImageNet، این شامل معیارهایی مانند FID و IS بود. سپس آنها مدل‌های از پیش آموزش‌دیده در دسترس‌تر را به عنوان تأییدکننده‌های نظارت شده مانند CLIP و DINO بررسی کردند. این مدل‌ها برای طبقه‌بندی نمونه‌ها، انتخاب نمونه با بالاترین لاجیت مربوط به برچسب کلاس استفاده شدند.

با این حال، آنها مشاهده کردند که این طبقه‌بندی‌کننده‌ها که به‌صورت نقطه‌ای عمل می‌کنند، فقط تا حدی با اهداف امتیاز FID همسو هستند. این امر منجر به کاهش واریانس نمونه و فروپاشی حالت با افزایش محاسبات شد. این پدیده که "هک کردن تأییدکننده" نامیده می‌شود، با فضای جستجوی نامحدود الگوریتم جستجوی تصادفی تسریع شد. جالب اینجاست که این مطالعه نشان داد که تأییدکننده‌ها لزوماً نیازی به اطلاعات شرطی برای هدایت موثر جستجو ندارند. آنها همبستگی قوی بین لاجیت‌های طبقه‌بندی‌کننده‌های DINO/CLIP و شباهت کسینوسی فضای ویژگی بین پیش‌بینی x در سطح نویز پایین و نمونه تمیز نهایی مشاهده کردند. این امر منجر به استفاده از تأییدکننده‌های خود-نظارتی شد که نیازی به اطلاعات شرطی اضافی ندارند و همچنان رفتار مقیاس‌بندی موثری از خود نشان می‌دهند.

الگوریتم‌های جستجو

برای کاهش هک کردن تأییدکننده، محققان الگوریتم‌های جستجوی دقیق‌تری را بررسی کردند که نمونه‌های کاندید را به تدریج بهینه می‌کنند. این شامل یک روش جستجوی مرتبه صفر بود:

شروع با یک نویز گاوسی تصادفی به عنوان نقطه محوری.
یافتن N کاندیدا در همسایگی نقطه محوری.
اجرای کاندیداها از طریق حل کننده ODE برای به دست آوردن نمونه‌ها و امتیازهای تأییدکننده.
به روز رسانی نقطه محوری با بهترین کاندیدا و تکرار مراحل 1-3.

آنها همچنین یک الگوریتم جستجوی مسیر را بررسی کردند که امکان جستجو در امتداد مسیر نمونه‌برداری را بررسی می‌کند:

نمونه‌برداری از N نمونه نویز اولیه و اجرای حل کننده ODE تا سطح نویز σ.
افزودن نویز به هر نمونه و شبیه‌سازی یک فرآیند نویزدهی رو به جلو.
اجرای حل کننده ODE بر روی هر نمونه نویزدار و نگه داشتن N کاندیدای برتر بر اساس امتیازهای تأییدکننده، تکرار تا زمانی که حل کننده ODE به σ=0 برسد.
جستجوی تصادفی N نمونه باقی مانده و نگه داشتن بهترین آنها.

هر دو الگوریتم جستجوی مرتبه صفر و مسیر در مقایسه با جستجوی تصادفی، محلی بودن قوی را حفظ می‌کنند.

مقیاس‌بندی در سناریوهای تبدیل متن به تصویر

این تیم قابلیت‌های مقیاس‌بندی چارچوب جستجو را در وظایف تبدیل متن به تصویر در مقیاس بزرگتر بررسی کردند. آنها از مجموعه داده‌های DrawBench و T2I-CompBench برای ارزیابی، با مدل FLUX.1-dev به عنوان پایه استفاده کردند. آنها همچنین انتخاب تأییدکننده‌های نظارت شده را گسترش دادند، از جمله Aesthetic Score Predictor، CLIPScore و ImageReward. علاوه بر این، آنها یک Verifier Ensemble را با ترکیب این سه تأییدکننده ایجاد کردند.

تجزیه و تحلیل: همسویی تأییدکننده-وظیفه

این مطالعه نتایج ترکیب‌های مختلف تأییدکننده-الگوریتم را در مجموعه داده‌های مختلف مقایسه کرد. در DrawBench، آنها دریافتند که استفاده از همه تأییدکننده‌ها به طور کلی کیفیت نمونه را بهبود می‌بخشد. با این حال، آنها مشاهده کردند که استفاده از تأییدکننده‌های Aesthetic و CLIP به صورت جداگانه می‌تواند منجر به برازش بیش از حد تعصبات آنها شود و در نتیجه تأثیرات منفی بر یکدیگر داشته باشد. این ناشی از عدم تطابق در تمرکز ارزیابی آنها است: امتیاز زیبایی بر کیفیت بصری متمرکز است و اغلب تصاویر بسیار سبک‌دار را ترجیح می‌دهد، در حالی که CLIP همسویی بصری-متنی را در اولویت قرار می‌دهد و گاهی اوقات کیفیت بصری را فدا می‌کند. آنها خاطرنشان کردند که برخی از تأییدکننده‌ها برای وظایف خاص مناسب‌تر هستند و اثربخشی یک تأییدکننده به همسویی آن با الزامات وظیفه بستگی دارد.

عملکرد الگوریتم

هر سه الگوریتم جستجو (تصادفی، مرتبه صفر و مسیر) به طور موثر کیفیت نمونه‌برداری را در DrawBench بهبود بخشیدند. با این حال، جستجوی تصادفی به دلیل ماهیت محلی دو روش دیگر، در برخی از جنبه‌ها عملکرد بهتری داشت. جستجوی تصادفی سریعتر به تعصب تأییدکننده همگرا شد، در حالی که دو الگوریتم دیگر نیاز به بهبود در کاندیداهای کمتر از حد مطلوب دارند.

سازگاری با تنظیم دقیق

این تیم سازگاری روش جستجوی خود را با مدل‌های تنظیم دقیق بررسی کردند. آنها از یک مدل Stable Diffusion XL تنظیم شده با DPO استفاده کردند و دریافتند که روش جستجو می‌تواند برای مدل‌های مختلف تعمیم داده شود و عملکرد مدل‌های از قبل همسو شده را بهبود بخشد.

اثرات ابعاد مختلف محاسبات استنتاج

این مطالعه بررسی کرد که چگونه جنبه‌های مختلف محاسبات استنتاج بر نتایج تأثیر می‌گذارد:

تعداد تکرارهای جستجو: افزایش تکرارها نویز را به بهینه نزدیکتر می‌کند.
محاسبات در هر تکرار جستجو: تنظیم تعداد مراحل نویززدایی در هر تکرار، مناطق بهینه محاسباتی متفاوتی را نشان می‌دهد.
محاسبات تولید نهایی: تیم از تنظیمات بهینه برای مراحل نویززدایی نهایی برای اطمینان از بالاترین کیفیت نمونه نهایی استفاده کرد.

اثربخشی سرمایه‌گذاری در محاسبات

محققان اثربخشی مقیاس‌بندی در زمان استنتاج را بر روی مدل‌های انتشار کوچکتر بررسی کردند. آنها دریافتند که برای ImageNet، مقیاس‌بندی مدل‌های کوچکتر می‌تواند بسیار کارآمد باشد. در برخی موارد، جستجو در یک مدل کوچکتر می‌تواند از مدل‌های بزرگتر بدون جستجو بهتر عمل کند. با این حال، اثربخشی به عملکرد پایه مدل کوچکتر بستگی دارد.

در تنظیمات مبتنی بر متن، PixArt-Σ، با استفاده از تنها کسری از محاسبات، از FLUX-1.dev بهتر عمل کرد. این نتایج نشان می‌دهد که منابع محاسباتی قابل توجهی که در طول آموزش صرف می‌شود، می‌تواند با مقادیر کمتری از محاسبات در طول تولید جبران شود و در نتیجه نمونه‌های با کیفیت بالاتری به طور کارآمدتر تولید شود.