Мащабиране на Извода на Дифузионни Модели Нова Парадигма

Въведение

Последните постижения в големите езикови модели (LLM) демонстрираха ефективността на мащабирането по време на извод. Модели като o1, o3, DeepSeek R1, QwQ и Step Reasoner mini показаха, че увеличеното изчисление по време на извод може значително да подобри производителността. Това повдига въпроса: може ли този принцип да се приложи и към дифузионните модели?

Екип, ръководен от Xie Saining в New York University, изследва точно този въпрос. Чрез систематично изследване, използвайки обща рамка за търсене, те откриха, че мащабирането по време на извод е наистина ефективно за дифузионните модели. Увеличаването на изчисленията по време на извод води до значително подобрение в качеството на генерираните образци. Освен това сложността на изображенията позволява различни комбинации от компоненти в рамките на рамката, съобразени с различни сценарии на приложение.

Основни открития

Мащабирането по време на извод е ефективно за дифузионни модели: Разпределянето на повече изчислителни ресурси по време на извод води до по-високо качество на образците.
Гъвкавост в комбинациите от компоненти: Рамката позволява различни конфигурации на компоненти, обслужващи различни приложения.
Отвъд стъпките за премахване на шума: Изследването предполага, че търсенето на по-добър шум по време на вземане на проби е друго измерение за мащабиране на NFE, отвъд простото увеличаване на стъпките за премахване на шума.
Две оси на проектиране: Рамката се фокусира върху две ключови оси на проектиране:
- Верификатори: Предоставяне на обратна връзка по време на процеса на търсене.
- Алгоритми: Намиране на по-добри кандидати за шум.

Методология на изследване

Екипът изследва три различни сценария за верификатори, симулиращи различни случаи на употреба:

Сценарии, при които е налична привилегирована информация за крайната оценка.
Сценарии, при които е налична условна информация за насочване на генерирането.
Сценарии без налична допълнителна информация.

За алгоритмите те изследваха:

Случайно търсене: Избор на най-добрия от фиксиран набор от кандидати.
Търсене от нулев ред: Итеративно подобряване на кандидатите за шум, използвайки обратна връзка от верификатора.
Търсене на пътя: Итеративно подобряване на траекториите за вземане на проби от дифузия, използвайки обратна връзка от верификатора.

Първоначално проучването изследва тези дизайни в сравнително проста настройка за генериране на класово-условно ImageNet. Впоследствие те приложиха тези дизайни към по-голямо текстово-условно генериране и оцениха предложената от тях рамка.

Мащабиране на времето за извод

Статията предлага рамка за мащабиране на времето за извод в дифузионни модели, оформяйки предизвикателството като търсене на оптимален шум за вземане на проби. Процесът включва два основни компонента:

Верификатори: Това са предварително обучени модели, които оценяват качеството на генерираните образци. Те приемат генерирани образци, заедно с незадължителни условия, и извеждат скаларна оценка.
Алгоритми: Тези алгоритми използват оценките на верификатора, за да намерят по-добри кандидати за образци. Функцията приема верификатор (V), предварително обучен дифузионен модел (_θ) и набор от генерирани образци и условия, като извежда най-добрия начален шум.

Общият бюджет за извод се измерва с общия брой на оценки на функции (NFE), включително стъпките за премахване на шума и разходите за търсене.

Верификатори за търсене

Изследователите започнаха с Oracle верификатор, който има пълна информация за крайната оценка на избраните образци. За ImageNet това включваше показатели като FID и IS. След това те изследваха по-достъпни предварително обучени модели като контролирани верификатори, като CLIP и DINO. Тези модели бяха използвани за класифициране на образци, като се избира образецът с най-високия логит, съответстващ на етикета на класа.

Въпреки това, те наблюдаваха, че тези класификатори, работещи точка по точка, само частично се привеждат в съответствие с целите на FID резултата. Това доведе до намаляване на дисперсията на образците и колапс на режима, когато изчислението се увеличи. Това явление, наречено "хакване на верификатор", беше ускорено от неограниченото пространство за търсене на алгоритъма за случайно търсене.

Интересно е, че проучването установи, че верификаторите не е задължително да се нуждаят от условна информация, за да насочват ефективно търсенето. Те наблюдаваха силна корелация между логитите от DINO/CLIP класификаторите и косинусовата прилика на пространството на характеристиките между x прогнозата при ниско ниво на шум и крайния чист образец. Това доведе до използването на самоконтролирани верификатори, които не изискват допълнителна условна информация и все още показват ефективно поведение при мащабиране.

Алгоритми за търсене

За да смекчат хакването на верификатора, изследователите изследваха по-усъвършенствани алгоритми за търсене, които постепенно оптимизират кандидатите за образци. Това включваше метод за търсене от нулев ред:

Започвайки със случаен гаусов шум като опорна точка.
Намиране на N кандидати в съседство на опорната точка.
Изпълнение на кандидатите чрез ODE solver за получаване на образци и резултати от верификатор.
Актуализиране на опорната точка с най-добрия кандидат и повтаряне на стъпки 1-3.

Те също така изследваха алгоритъм за търсене на пътя, който изследва възможността за търсене по траекторията на вземане на проби:

Вземане на проби от N начални шумови образци и изпълнение на ODE solver до ниво на шум σ.
Добавяне на шум към всеки образец и симулиране на процес на шум напред.
Изпълнение на ODE solver върху всеки шумен образец и запазване на най-добрите N кандидати въз основа на резултатите от верификатора, повтаряйки, докато ODE solver достигне σ=0.
Случайно търсене на останалите N образци и запазване на най-добрия.

И алгоритмите за търсене от нулев ред, и за търсене на пътя поддържат силна локалност в сравнение със случайното търсене.

Мащабиране в сценарии текст към изображение

Екипът изследва възможностите за мащабиране на рамката за търсене в по-големи задачи за текст към изображение. Те използваха наборите от данни DrawBench и T2I-CompBench за оценка, като моделът FLUX.1-dev беше гръбнакът. Те също така разшириха избора на контролирани верификатори, включително Aesthetic Score Predictor, CLIPScore и ImageReward. Освен това те създадоха Verifier Ensemble, като комбинираха тези три верификатора.

Анализ: Съгласуване на Верификатор-Задача

Изследването сравни резултатите от различни комбинации от верификатор-алгоритъм на различни набори от данни. На DrawBench те установиха, че използването на всички верификатори обикновено подобрява качеството на образците. Въпреки това, те забелязаха, че използването на Aesthetic и CLIP верификатори изолирано може да доведе до прекалено напасване на техните пристрастия, което води до отрицателни въздействия един върху друг. Това произтича от несъответствие в техния фокус на оценка: Aesthetic Score се фокусира върху визуалното качество, често предпочитайки силно стилизирани изображения, докато CLIP приоритизира визуално-текстовото подравняване, понякога жертвайки визуалното качество.

Те отбелязаха, че някои верификатори са по-подходящи за конкретни задачи и ефективността на верификатора зависи от неговото съответствие с изискванията на задачата.

Ефективност на алгоритъма

Трите алгоритми за търсене (Случаен, Нулев ред и Път) ефективно подобриха качеството на вземане на проби на DrawBench. Въпреки това, Случайното търсене се представи по-добре в някои аспекти поради локалния характер на другите два метода. Случайното търсене се сближи по-бързо с пристрастието на верификатора, докато другите два алгоритъма изискват подобрение на по-малко от оптимални кандидати.

Съвместимост с фино настройване

Екипът изследва съвместимостта на техния метод за търсене с фино настроени модели. Те използваха DPO-фино настроен Stable Diffusion XL модел и установиха, че методът за търсене може да бъде обобщен за различни модели и да подобри производителността на вече подравнени модели.

Ефекти от различни измерения на изчислението на извода

Изследването изследва как различните аспекти на изчислението на извода влияят на резултатите:

Брой итерации на търсене: Увеличаването на итерациите доближава шума до оптимума.
Изчисление на итерация на търсене: Настройването на броя на стъпките за премахване на шума на итерация разкрива различни изчислително оптимални региони.
Изчисление на крайно генериране: Екипът използва оптимални настройки за крайните стъпки за премахване на шума, за да гарантира най-високо крайно качество на образеца.

Ефективност на инвестициите в изчисление

Изследователите изследваха ефективността на мащабирането по време на извод при по-малки дифузионни модели. Те установиха, че за ImageNet мащабирането на по-малки модели може да бъде много ефективно. В някои случаи търсенето на по-малък модел може да превъзхожда по-големи модели без търсене. Въпреки това, ефективността зависи от базовата производителност на по-малкия модел.

В текстови настройки PixArt-Σ, използвайки само част от изчислението, надмина FLUX-1.dev. Тези резултати показват, че значителни изчислителни ресурси, изразходвани по време на обучение, могат да бъдат компенсирани от по-малки количества изчисления по време на генериране, което води до по-висококачествени образци по-ефективно.