Published on

تحجيم الاستدلال في نماذج الانتشار نموذج جديد

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

مقدمة

أظهرت التطورات الأخيرة في نماذج اللغة الكبيرة (LLMs) فعالية التحجيم أثناء الاستدلال. فقد أظهرت نماذج مثل o1 و o3 و DeepSeek R1 و QwQ و Step Reasoner mini أن زيادة الحساب أثناء الاستدلال يمكن أن يحسن الأداء بشكل كبير. وهذا يثير السؤال: هل يمكن تطبيق هذا المبدأ على نماذج الانتشار أيضًا؟

قام فريق بقيادة شي ساينينغ في جامعة نيويورك باستكشاف هذا السؤال بالذات. من خلال تحقيق منهجي باستخدام إطار بحث عام، وجدوا أن التحجيم في وقت الاستدلال فعال بالفعل بالنسبة لنماذج الانتشار. تؤدي زيادة الحساب أثناء الاستدلال إلى تحسن كبير في جودة العينات المولدة. علاوة على ذلك، تسمح تعقيد الصور بتركيبات مختلفة من المكونات داخل الإطار، مصممة خصيصًا لسيناريوهات التطبيق المختلفة.

النتائج الرئيسية

  • تحجيم وقت الاستدلال فعال لنماذج الانتشار: تخصيص المزيد من الموارد الحسابية أثناء الاستدلال يؤدي إلى عينات ذات جودة أعلى.
  • المرونة في تركيبات المكونات: يسمح الإطار بتكوينات مختلفة للمكونات، لتلبية مختلف التطبيقات.
  • ما وراء خطوات إزالة الضوضاء: يشير البحث إلى أن البحث عن ضوضاء أفضل أثناء أخذ العينات هو بُعد آخر لتحجيم NFE، بالإضافة إلى مجرد زيادة خطوات إزالة الضوضاء.
  • محوران للتصميم: يركز الإطار على محورين رئيسيين للتصميم:
    • المدققون: تقديم ملاحظات أثناء عملية البحث.
    • الخوارزميات: إيجاد مرشحين أفضل للضوضاء.

منهجية البحث

استكشف الفريق ثلاثة سيناريوهات مختلفة للمدققين، تحاكي حالات استخدام مختلفة:

  1. سيناريوهات تتوفر فيها معلومات مميزة حول التقييم النهائي.
  2. سيناريوهات تتوفر فيها معلومات شرطية لتوجيه التوليد.
  3. سيناريوهات لا تتوفر فيها معلومات إضافية.

بالنسبة للخوارزميات، فقد بحثوا في:

  1. البحث العشوائي: اختيار الأفضل من مجموعة ثابتة من المرشحين.
  2. البحث من الرتبة الصفرية: تحسين مرشحي الضوضاء بشكل متكرر باستخدام ملاحظات المدقق.
  3. البحث المساري: تحسين مسارات أخذ عينات الانتشار بشكل متكرر باستخدام ملاحظات المدقق.

استكشفت الدراسة في البداية هذه التصاميم في إعداد بسيط نسبيًا لتوليد ImageNet الشرطي للفئة. وبعد ذلك، قاموا بتطبيق هذه التصاميم على توليد شرطي للنص على نطاق أوسع وقاموا بتقييم الإطار المقترح.

تحجيم وقت الاستدلال

تقترح الورقة إطارًا لتحجيم وقت الاستدلال في نماذج الانتشار، وتضع التحدي في إطار البحث عن الضوضاء المثالية لأخذ العينات. تتضمن العملية مكونين أساسيين:

  • المدققون: هذه نماذج مدربة مسبقًا لتقييم جودة العينات المولدة. فهي تأخذ العينات المولدة، جنبًا إلى جنب مع الشروط الاختيارية، وتخرج درجة عددية.
  • الخوارزميات: تستخدم هذه الخوارزميات درجات المدقق للعثور على عينات مرشحة أفضل. تأخذ الدالة مدققًا (V)، ونموذج انتشار مدرب مسبقًا (_θ)، ومجموعة من العينات والشروط المولدة، وتخرج أفضل ضوضاء أولية.

يتم قياس إجمالي ميزانية الاستدلال من خلال العدد الإجمالي لتقييمات الدالة (NFE)، بما في ذلك خطوات إزالة الضوضاء وتكاليف البحث.

مدققو البحث

بدأ الباحثون بمدقق Oracle، الذي لديه معلومات كاملة حول التقييم النهائي للعينات المختارة. بالنسبة لـ ImageNet، شمل ذلك مقاييس مثل FID و IS. ثم استكشفوا نماذج مدربة مسبقًا أكثر سهولة الوصول إليها كمدققين خاضعين للإشراف، مثل CLIP و DINO. تم استخدام هذه النماذج لتصنيف العينات، واختيار العينة ذات السجل الأعلى المقابل لتسمية الفئة.

ومع ذلك، فقد لاحظوا أن هذه المصنفات، التي تعمل نقطة بنقطة، تتوافق جزئيًا فقط مع أهداف درجة FID. أدى ذلك إلى انخفاض في تباين العينة وانهيار الوضع مع زيادة الحساب. وقد تسارع هذه الظاهرة، التي أطلق عليها اسم "اختراق المدقق"، بسبب مساحة البحث غير المقيدة لخوارزمية البحث العشوائي.

ومن المثير للاهتمام، أن الدراسة وجدت أن المدققين لا يحتاجون بالضرورة إلى معلومات شرطية لتوجيه البحث بفعالية. فقد لاحظوا وجود ارتباط قوي بين السجلات من مصنفات DINO/CLIP والتشابه الجيبي للمساحة المميزة بين توقع x عند مستوى ضوضاء منخفض والعينة النظيفة النهائية. وقد أدى ذلك إلى استخدام مدققين ذاتيين، لا يتطلبون معلومات شرطية إضافية ولا يزالون يظهرون سلوكًا فعالًا في التحجيم.

خوارزميات البحث

للتخفيف من اختراق المدقق، استكشف الباحثون خوارزميات بحث أكثر دقة تعمل على تحسين العينات المرشحة تدريجيًا. وقد شمل ذلك طريقة بحث من الرتبة الصفرية:

  1. البدء بضوضاء غاوسية عشوائية كنقطة ارتكاز.
  2. إيجاد N مرشحًا في حي نقطة الارتكاز.
  3. تشغيل المرشحين من خلال محلل ODE للحصول على عينات ودرجات المدقق.
  4. تحديث نقطة الارتكاز بأفضل مرشح وتكرار الخطوات 1-3.

كما قاموا بالتحقيق في خوارزمية البحث المساري، التي تستكشف إمكانية البحث على طول مسار أخذ العينات:

  1. أخذ عينات N من الضوضاء الأولية وتشغيل محلل ODE إلى مستوى ضوضاء σ.
  2. إضافة ضوضاء إلى كل عينة، ومحاكاة عملية ضوضاء أمامية.
  3. تشغيل محلل ODE على كل عينة ضوضاء والاحتفاظ بأفضل N مرشحًا بناءً على درجات المدقق، وتكرار ذلك حتى يصل محلل ODE إلى σ=0.
  4. البحث عشوائيًا عن العينات المتبقية N والاحتفاظ بأفضل عينة.

تحافظ كل من خوارزميات البحث من الرتبة الصفرية والبحث المساري على موقع قوي مقارنة بالبحث العشوائي.

التحجيم في سيناريوهات النص إلى صورة

فحص الفريق قدرات التحجيم للإطار البحثي في مهام النص إلى صورة على نطاق أوسع. استخدموا مجموعات بيانات DrawBench و T2I-CompBench للتقييم، مع نموذج FLUX.1-dev كعمود فقري. كما قاموا بتوسيع اختيار المدققين الخاضعين للإشراف، بما في ذلك Aesthetic Score Predictor و CLIPScore و ImageReward. بالإضافة إلى ذلك، قاموا بإنشاء Verifier Ensemble من خلال الجمع بين هؤلاء المدققين الثلاثة.

تحليل: توافق المدقق مع المهمة

قارنت الدراسة نتائج تركيبات المدقق والخوارزمية المختلفة على مجموعات بيانات مختلفة. في DrawBench، وجدوا أن استخدام جميع المدققين يحسن بشكل عام جودة العينة. ومع ذلك، فقد لاحظوا أن استخدام مدققي Aesthetic و CLIP بشكل منفصل يمكن أن يؤدي إلى الإفراط في ملاءمة تحيزاتهم، مما يؤدي إلى تأثيرات سلبية على بعضهم البعض. وينبع هذا من عدم التطابق في تركيز التقييم الخاص بهم: يركز Aesthetic Score على الجودة البصرية، وغالبًا ما يفضل الصور عالية الأسلوب، بينما يعطي CLIP الأولوية للتوافق المرئي النصي، مما يضحي أحيانًا بالجودة البصرية. وقد لاحظوا أن بعض المدققين أكثر ملاءمة لمهام محددة، وأن فعالية المدقق تعتمد على توافقه مع متطلبات المهمة.

أداء الخوارزمية

قامت خوارزميات البحث الثلاث (العشوائية والصفرية والمسارية) بتحسين جودة أخذ العينات بشكل فعال في DrawBench. ومع ذلك، تفوق البحث العشوائي في بعض الجوانب بسبب الطبيعة المحلية للطريقتين الأخريين. فقد تقارب البحث العشوائي بسرعة أكبر مع تحيز المدقق، في حين أن الخوارزميتين الأخريين تتطلبان تحسينًا على مرشحين أقل من المستوى الأمثل.

التوافق مع الضبط الدقيق

قام الفريق بالتحقيق في توافق طريقة البحث الخاصة بهم مع النماذج المضبوطة بدقة. استخدموا نموذج Stable Diffusion XL مضبوطًا بدقة DPO ووجدوا أن طريقة البحث يمكن تعميمها على نماذج مختلفة وتحسين أداء النماذج المحاذية بالفعل.

تأثيرات الأبعاد المختلفة للحساب الاستدلالي

استكشفت الدراسة كيف تؤثر الجوانب المختلفة للحساب الاستدلالي على النتائج:

  • عدد مرات التكرار للبحث: زيادة التكرارات تقرب الضوضاء من المستوى الأمثل.
  • الحساب لكل تكرار بحث: يكشف تعديل عدد خطوات إزالة الضوضاء لكل تكرار عن مناطق مختلفة مثالية من الناحية الحسابية.
  • حساب التوليد النهائي: استخدم الفريق إعدادات مثالية لخطوات إزالة الضوضاء النهائية لضمان أعلى جودة نهائية للعينة.

فعالية الاستثمار في الحساب

استكشف الباحثون فعالية تحجيم وقت الاستدلال على نماذج انتشار أصغر. وجدوا أنه بالنسبة لـ ImageNet، يمكن أن يكون تحجيم النماذج الأصغر فعالًا للغاية. في بعض الحالات، يمكن أن يتفوق البحث في نموذج أصغر على النماذج الأكبر حجمًا بدون بحث. ومع ذلك، فإن الفعالية تعتمد على الأداء الأساسي للنموذج الأصغر.

في الإعدادات النصية، تفوق PixArt-Σ، باستخدام جزء صغير فقط من الحساب، على FLUX-1.dev. وتوضح هذه النتائج أن الموارد الحسابية الكبيرة التي تنفق أثناء التدريب يمكن تعويضها بكميات أقل من الحساب أثناء التوليد، مما يؤدي إلى عينات ذات جودة أعلى بكفاءة أكبر.