Published on

קנה מידה של הסקה של מודל דיפוזיה פרדיגמה חדשה

מחברים
  • avatar
    שם
    Ajax
    Twitter

מבוא

ההתקדמות האחרונה במודלים שפה גדולים (LLMs) הדגימה את היעילות של קנה מידה במהלך ההסקה. מודלים כמו o1, o3, DeepSeek R1, QwQ ו-Step Reasoner mini הראו שחישוב מוגבר במהלך ההסקה יכול לשפר משמעותית את הביצועים. זה מעלה את השאלה: האם ניתן ליישם עיקרון זה גם במודלים של דיפוזיה?

צוות בראשות שיה סאינינג באוניברסיטת ניו יורק חקר בדיוק את השאלה הזו. באמצעות חקירה שיטתית באמצעות מסגרת חיפוש כללית, הם גילו כי קנה מידה בזמן ההסקה אכן יעיל עבור מודלים של דיפוזיה. הגדלת החישוב במהלך ההסקה מובילה לשיפור משמעותי באיכות הדגימות שנוצרות. יתר על כן, המורכבות של תמונות מאפשרת שילובים שונים של רכיבים בתוך המסגרת, המותאמים לתרחישי יישומים שונים.

ממצאים עיקריים

  • קנה מידה בזמן ההסקה יעיל עבור מודלים של דיפוזיה: הקצאת משאבי חישוב נוספים במהלך ההסקה גורמת לדגימות באיכות גבוהה יותר.
  • גמישות בשילוב רכיבים: המסגרת מאפשרת תצורות רכיבים שונות, המתאימות ליישומים שונים.
  • מעבר לשלבי הסרת רעשים: המחקר מצביע על כך שחיפוש אחר רעש טוב יותר במהלך הדגימה הוא מימד נוסף לקנה מידה של NFE, מעבר להגדלת שלבי הסרת רעשים בלבד.
  • שני צירי עיצוב: המסגרת מתמקדת בשני צירי עיצוב עיקריים:
    • מאמתים: מתן משוב במהלך תהליך החיפוש.
    • אלגוריתמים: מציאת מועמדי רעש טובים יותר.

מתודולוגיית מחקר

הצוות חקר שלושה תרחישים שונים עבור מאמתים, תוך הדמיה של מקרי שימוש שונים: 1. תרחישים שבהם מידע מועדף על ההערכה הסופית זמין. 2. תרחישים שבהם מידע מותנה זמין להנחות את הדור. 3. תרחישים ללא מידע נוסף זמין.

עבור אלגוריתמים, הם חקרו: 1. חיפוש אקראי: בחירת הטוב ביותר מתוך קבוצה קבועה של מועמדים. 2. חיפוש מסדר אפס: שיפור איטרטיבי של מועמדי רעש באמצעות משוב מאמת. 3. חיפוש נתיבים: שיפור איטרטיבי של מסלולי דגימת דיפוזיה באמצעות משוב מאמת.

המחקר חקר תחילה עיצובים אלה בהגדרת יצירה מותנית מחלקה ImageNet פשוטה יחסית. לאחר מכן, הם יישמו עיצובים אלה על יצירה מותנית טקסט בקנה מידה גדול יותר והעריכו את המסגרת המוצעת שלהם.

קנה מידה של זמן ההסקה

המאמר מציע מסגרת לקנה מידה של זמן ההסקה במודלים של דיפוזיה, תוך מסגור האתגר כחיפוש אחר רעש דגימה אופטימלי. התהליך כולל שני מרכיבים עיקריים:

  • מאמתים: אלו מודלים שאומנו מראש שמעריכים את איכות הדגימות שנוצרו. הם מקבלים דגימות שנוצרו, יחד עם תנאים אופציונליים, ומוציאים ציון סקלרי.
  • אלגוריתמים: אלגוריתמים אלה משתמשים בציוני המאמת כדי למצוא דגימות מועמדות טובות יותר. הפונקציה לוקחת מאמת (V), מודל דיפוזיה שאומן מראש (_θ) וקבוצה של דגימות ותנאים שנוצרו, ומוציאה את הרעש הראשוני הטוב ביותר.

תקציב ההסקה הכולל נמדד על ידי המספר הכולל של הערכות פונקציה (NFE), כולל שלבי הסרת רעשים ועלויות חיפוש.

מאמתים חיפוש

החוקרים החלו עם מאמת Oracle, שיש לו מידע מלא על ההערכה הסופית של דגימות נבחרות. עבור ImageNet, זה כלל מדדים כמו FID ו-IS. לאחר מכן הם חקרו מודלים שאומנו מראש נגישים יותר כמאמתים מפוקחים, כגון CLIP ו-DINO. מודלים אלה שימשו לסיווג דגימות, ובחירת הדגימה עם הלוגית הגבוהה ביותר המתאימה לתווית המחלקה.

עם זאת, הם הבחינו כי מסווגים אלה, הפועלים נקודתית, מתאימים רק באופן חלקי למטרות ציון ה-FID. זה הוביל להפחתה בשונות הדגימה ולקריסת אופנה ככל שהחישוב גדל. תופעה זו, המכונה "פריצת מאמת", הואצה על ידי מרחב החיפוש הבלתי מוגבל של אלגוריתם החיפוש האקראי. מעניין, המחקר מצא כי מאמתים אינם צריכים בהכרח מידע מותנה כדי להנחות את החיפוש ביעילות. הם הבחינו במתאם חזק בין הלוגיות ממסווגי DINO/CLIP לבין דמיון הקוסינוס של מרחב התכונות בין תחזית x ברמת רעש נמוכה לדגימה הנקייה הסופית. זה הוביל לשימוש במאמתים בפיקוח עצמי, שאינם דורשים מידע מותנה נוסף ועדיין הציגו התנהגות קנה מידה יעילה.

אלגוריתמי חיפוש

כדי להפחית את פריצת המאמת, החוקרים חקרו אלגוריתמי חיפוש מעודנים יותר המייעלים בהדרגה דגימות מועמדות. זה כלל שיטת חיפוש מסדר אפס: 1. התחלה עם רעש גאוסיאני אקראי כנקודת ציר. 2. מציאת N מועמדים בשכונת נקודת הציר. 3. הפעלת מועמדים באמצעות פותר ה-ODE כדי לקבל דגימות וציוני מאמת. 4. עדכון נקודת הציר עם המועמד הטוב ביותר וחזרה על שלבים 1-3.

הם גם חקרו אלגוריתם חיפוש נתיבים, החוקר את האפשרות של חיפוש לאורך מסלול הדגימה: 1. דגימת N דגימות רעש ראשוניות והפעלת פותר ה-ODE לרמת רעש σ. 2. הוספת רעש לכל דגימה והדמיה של תהליך הרעשה קדימה. 3. הפעלת פותר ODE על כל דגימה רועשת ושמירה על N המועמדים המובילים בהתבסס על ציוני מאמת, וחזרה עד שפותר ה-ODE מגיע ל-σ=0. 4. חיפוש אקראי של N הדגימות הנותרות ושמירה על הטובה ביותר.

גם אלגוריתמי חיפוש מסדר אפס וגם חיפוש נתיבים שומרים על מקומיות חזקה בהשוואה לחיפוש אקראי.

קנה מידה בתרחישי טקסט לתמונה

הצוות בחן את יכולות קנה המידה של מסגרת החיפוש במשימות טקסט לתמונה בקנה מידה גדול יותר. הם השתמשו במערכי הנתונים DrawBench ו-T2I-CompBench להערכה, עם מודל FLUX.1-dev כעמוד השדרה. הם גם הרחיבו את מבחר המאמתים המפוקחים, כולל Aesthetic Score Predictor, CLIPScore ו-ImageReward. בנוסף, הם יצרו Verifier Ensemble על ידי שילוב של שלושת המאמתים הללו.

ניתוח: התאמת מאמת-משימה

המחקר השווה את התוצאות של שילובי מאמת-אלגוריתם שונים במערכי נתונים שונים. ב-DrawBench, הם גילו כי שימוש בכל המאמתים שיפר בדרך כלל את איכות הדגימה. עם זאת, הם הבחינו כי שימוש במאמתים Aesthetic ו-CLIP בנפרד עלול להוביל להתאמת יתר של ההטיות שלהם, וכתוצאה מכך השפעות שליליות זה על זה. זה נובע מחוסר התאמה במוקד ההערכה שלהם: ציון אסתטי מתמקד באיכות חזותית, ולעתים קרובות מעדיף תמונות מסוגננות מאוד, בעוד ש-CLIP נותן עדיפות להתאמה חזותית-טקסט, ולפעמים מקריב איכות חזותית. הם ציינו כי חלק מהמאמתים מתאימים יותר למשימות ספציפיות, ויעילותו של מאמת תלויה בהתאמתו לדרישות המשימה.

ביצועי אלגוריתם

שלושת אלגוריתמי החיפוש (אקראי, מסדר אפס ונתיב) שיפרו כולם ביעילות את איכות הדגימה ב-DrawBench. עם זאת, חיפוש אקראי הצטיין בכמה היבטים בשל האופי המקומי של שתי השיטות האחרות. החיפוש האקראי התכנס מהר יותר להטיית המאמת, בעוד ששני האלגוריתמים האחרים דורשים שיפור במועמדים פחות מאופטימליים.

תאימות עם כוונון עדין

הצוות חקר את התאימות של שיטת החיפוש שלהם עם מודלים מכוונים עדין. הם השתמשו במודל Stable Diffusion XL מכוון עדין DPO וגילו שניתן להכליל את שיטת החיפוש למודלים שונים ולשפר את הביצועים של מודלים שכבר מיושרים.

השפעות של ממדים שונים של חישוב הסקה

המחקר חקר כיצד היבטים שונים של חישוב הסקה משפיעים על התוצאות:

  • מספר איטרציות חיפוש: הגדלת האיטרציות מקרבת את הרעש לאופטימום.
  • חישוב לכל איטרציית חיפוש: התאמת מספר שלבי הסרת הרעשים לכל איטרציה חושפת אזורים אופטימליים מבחינה חישובית שונים.
  • חישוב יצירה סופי: הצוות השתמש בהגדרות אופטימליות עבור שלבי הסרת הרעשים הסופיים כדי להבטיח את איכות הדגימה הסופית הגבוהה ביותר.

יעילות ההשקעה בחישוב

החוקרים חקרו את יעילות קנה המידה בזמן ההסקה במודלים קטנים יותר של דיפוזיה. הם גילו כי עבור ImageNet, קנה מידה של מודלים קטנים יותר יכול להיות יעיל מאוד. במקרים מסוימים, חיפוש במודל קטן יותר יכול לעלות על מודלים גדולים יותר ללא חיפוש. עם זאת, היעילות תלויה בביצועי הבסיס של המודל הקטן יותר.

בהגדרות מבוססות טקסט, PixArt-Σ, תוך שימוש רק בחלק מהחישוב, עלה על FLUX-1.dev. תוצאות אלו מדגימות כי ניתן לקזז משאבי חישוב משמעותיים שהושקעו במהלך ההכשרה על ידי כמויות קטנות יותר של חישוב במהלך הדור, וכתוצאה מכך דגימות באיכות גבוהה יותר בצורה יעילה יותר.