Diffusion Modellerinde Çıkarım Ölçeklendirme Yeni Paradigma

Giriş

Büyük Dil Modellerindeki (LLM'ler) son gelişmeler, çıkarım sırasında ölçeklendirmenin etkinliğini göstermiştir. o1, o3, DeepSeek R1, QwQ ve Step Reasoner mini gibi modeller, çıkarım sırasında artan hesaplamanın performansı önemli ölçüde iyileştirebileceğini göstermiştir. Bu durum, bu ilkenin diffusion modellerine de uygulanıp uygulanamayacağı sorusunu akla getiriyor.

New York Üniversitesi'nden Xie Saining liderliğindeki bir ekip, bu soruyu araştırmıştır. Genel bir arama çerçevesi kullanarak sistematik bir inceleme sonucunda, çıkarım zamanı ölçeklendirmenin diffusion modelleri için de etkili olduğu bulunmuştur. Çıkarım sırasında hesaplamayı artırmak, oluşturulan örneklerin kalitesinde önemli bir iyileşmeye yol açmaktadır. Ayrıca, görüntülerin karmaşıklığı, çerçeve içindeki bileşenlerin çeşitli uygulama senaryolarına uyarlanmış farklı kombinasyonlarına olanak tanır.

Temel Bulgular

Çıkarım zamanı ölçeklendirme diffusion modelleri için etkilidir: Çıkarım sırasında daha fazla hesaplama kaynağı ayırmak, daha yüksek kalitede örnekler üretir.
Bileşen kombinasyonlarında esneklik: Çerçeve, çeşitli uygulamalara hitap eden farklı bileşen yapılandırmalarına olanak tanır.
Gürültü Giderme Adımlarının Ötesinde: Araştırma, örnekleme sırasında daha iyi gürültü aramanın, basitçe gürültü giderme adımlarını artırmanın ötesinde bir NFE ölçeklendirme boyutu olduğunu göstermektedir.
İki Tasarım Ekseni: Çerçeve iki temel tasarım eksenine odaklanır:
- Doğrulayıcılar: Arama süreci sırasında geri bildirim sağlama.
- Algoritmalar: Daha iyi gürültü adayları bulma.

Araştırma Metodolojisi

Ekip, çeşitli kullanım durumlarını simüle eden doğrulayıcılar için üç farklı senaryo araştırmıştır:

Son değerlendirme hakkında ayrıcalıklı bilgilerin mevcut olduğu senaryolar.
Üretimi yönlendirmek için koşullu bilgilerin mevcut olduğu senaryolar.
Ek bilginin mevcut olmadığı senaryolar.

Algoritmalar için şunlar incelenmiştir:

Rastgele Arama: Sabit bir aday kümesinden en iyisini seçme.
Sıfırıncı Derece Arama: Doğrulayıcı geri bildirimini kullanarak gürültü adaylarını yinelemeli olarak iyileştirme.
Yol Arama: Doğrulayıcı geri bildirimini kullanarak diffusion örnekleme yörüngelerini yinelemeli olarak iyileştirme.

Çalışma başlangıçta bu tasarımları nispeten basit bir ImageNet sınıf koşullu üretim kurulumunda araştırmıştır. Daha sonra bu tasarımları daha büyük ölçekli metin koşullu üretime uygulamış ve önerilen çerçevelerini değerlendirmiştir.

Çıkarım Süresini Ölçeklendirme

Makale, diffusion modellerinde çıkarım süresini ölçeklendirmek için bir çerçeve önermekte ve zorluğu en iyi örnekleme gürültüsünü arama olarak ele almaktadır. Süreç iki temel bileşen içerir:

Doğrulayıcılar: Üretilen örneklerin kalitesini değerlendiren önceden eğitilmiş modellerdir. Üretilen örnekleri, isteğe bağlı koşullarla birlikte alır ve skaler bir puan verir.
Algoritmalar: Bu algoritmalar, daha iyi aday örnekler bulmak için doğrulayıcı puanlarını kullanır. İşlev, bir doğrulayıcı (V), önceden eğitilmiş bir diffusion modeli (_θ) ve üretilen bir dizi örnek ve koşul alarak en iyi başlangıç gürültüsünü verir.

Toplam çıkarım bütçesi, hem gürültü giderme adımlarını hem de arama maliyetlerini içeren toplam işlev değerlendirme sayısı (NFE) ile ölçülür.

Arama Doğrulayıcıları

Araştırmacılar, seçilen örneklerin nihai değerlendirmesi hakkında tam bilgiye sahip olan bir Oracle doğrulayıcısıyla başlamıştır. ImageNet için bu, FID ve IS gibi metrikleri içeriyordu. Daha sonra, CLIP ve DINO gibi denetimli doğrulayıcılar olarak daha erişilebilir önceden eğitilmiş modelleri araştırmışlardır. Bu modeller, örnekleri sınıflandırmak ve sınıf etiketiyle eşleşen en yüksek logiti olan örneği seçmek için kullanılmıştır.

Ancak, bu sınıflandırıcıların noktasal olarak çalışarak FID puanının hedefleriyle yalnızca kısmen uyumlu olduğunu gözlemlemişlerdir. Bu, hesaplama arttıkça örnek varyansının azalmasına ve mod çökmesine yol açmıştır. "Doğrulayıcı hackleme" olarak adlandırılan bu olgu, rastgele arama algoritmasının kısıtlanmamış arama alanı tarafından hızlandırılmıştır.

İlginç bir şekilde, çalışma doğrulayıcıların aramayı etkili bir şekilde yönlendirmek için koşullu bilgiye ihtiyaç duymadığını bulmuştur. DINO/CLIP sınıflandırıcılarından gelen logitler ile düşük gürültü seviyesindeki x tahmini ile son temiz örnek arasındaki özellik uzayının kosinüs benzerliği arasında güçlü bir korelasyon gözlemlemişlerdir. Bu, ek koşullu bilgi gerektirmeyen ve hala etkili ölçeklendirme davranışı sergileyen kendi kendine denetimli doğrulayıcıların kullanımına yol açmıştır.

Arama Algoritmaları

Doğrulayıcı hacklemeyi azaltmak için araştırmacılar, aday örnekleri kademeli olarak optimize eden daha rafine arama algoritmaları araştırmışlardır. Bu, sıfırıncı dereceden bir arama yöntemini içeriyordu:

Bir pivot noktası olarak rastgele bir Gauss gürültüsüyle başlama.
Pivot noktasının komşuluğunda N aday bulma.
Örnekler ve doğrulayıcı puanları elde etmek için adayları ODE çözücüsünden geçirme.
Pivot noktasını en iyi adayla güncelleme ve 1-3 adımlarını tekrarlama.

Ayrıca, örnekleme yörüngesi boyunca arama olasılığını araştıran bir yol arama algoritmasını da incelemişlerdir:

N başlangıç gürültü örneği alma ve ODE çözücüsünü bir gürültü seviyesi σ'ya kadar çalıştırma.
Her örneğe gürültü ekleme ve ileriye doğru gürültüleme sürecini simüle etme.
Her gürültülü örnek üzerinde bir ODE çözücüsü çalıştırma ve doğrulayıcı puanlarına göre en iyi N adayı tutma, ODE çözücüsü σ=0'a ulaşana kadar tekrarlama.
Kalan N örnekte rastgele arama yapma ve en iyisini tutma.

Hem sıfırıncı dereceden hem de yol arama algoritmaları, rastgele aramaya kıyasla güçlü bir yerellik sağlamaktadır.

Metinden Görüntüye Senaryolarda Ölçeklendirme

Ekip, arama çerçevesinin ölçeklendirme yeteneklerini daha büyük ölçekli metinden görüntüye görevlerde incelemiştir. Değerlendirme için DrawBench ve T2I-CompBench veri kümelerini ve omurga olarak FLUX.1-dev modelini kullanmışlardır. Ayrıca, Aesthetic Score Predictor, CLIPScore ve ImageReward dahil olmak üzere denetimli doğrulayıcıların seçimini genişletmişlerdir. Ek olarak, bu üç doğrulayıcıyı birleştirerek bir Doğrulayıcı Topluluğu oluşturmuşlardır.

Analiz: Doğrulayıcı-Görev Uyumu

Çalışma, farklı veri kümelerinde çeşitli doğrulayıcı-algoritma kombinasyonlarının sonuçlarını karşılaştırmıştır. DrawBench'te tüm doğrulayıcıları kullanmanın genellikle örnek kalitesini iyileştirdiği bulunmuştur. Ancak, Aesthetic ve CLIP doğrulayıcılarını yalıtılmış olarak kullanmanın, önyargılarını aşırı uydurmaya yol açabileceği ve birbirleri üzerinde olumsuz etkilere neden olabileceği gözlemlenmiştir. Bu, değerlendirme odaklarında bir uyuşmazlıktan kaynaklanmaktadır: Estetik Puan, genellikle yüksek düzeyde stilize edilmiş görüntüleri tercih ederek görsel kaliteye odaklanırken, CLIP bazen görsel kaliteden ödün vererek görsel-metin hizalamasına öncelik vermektedir. Bazı doğrulayıcıların belirli görevler için daha uygun olduğu ve bir doğrulayıcının etkinliğinin görev gereksinimleriyle uyumuna bağlı olduğu belirtilmiştir.

Algoritma Performansı

Üç arama algoritması (Rastgele, Sıfırıncı Derece ve Yol) DrawBench'te örnekleme kalitesini etkili bir şekilde iyileştirmiştir. Ancak, rastgele arama diğer iki yöntemin yerel doğası nedeniyle bazı yönlerde daha iyi performans göstermiştir. Rastgele arama, doğrulayıcı önyargısına daha hızlı yakınsarken, diğer iki algoritma daha az optimum adaylar üzerinde iyileştirme gerektirmektedir.

İnce Ayar ile Uyumluluk

Ekip, arama yöntemlerinin ince ayarlı modellerle uyumluluğunu incelemiştir. DPO ince ayarlı bir Stable Diffusion XL modeli kullanmış ve arama yönteminin farklı modellere genelleştirilebileceğini ve zaten hizalanmış modellerin performansını artırabileceğini bulmuşlardır.

Çıkarım Hesaplamasının Farklı Boyutlarının Etkileri

Çalışma, çıkarım hesaplamasının farklı yönlerinin sonuçları nasıl etkilediğini araştırmıştır:

Arama Yineleme Sayısı: Yinelemelerin artırılması, gürültüyü optimuma yaklaştırır.
Arama Yinelemesi Başına Hesaplama: Yineleme başına gürültü giderme adımlarının sayısını ayarlamak, farklı hesaplama açısından optimum bölgeleri ortaya çıkarır.
Son Üretim Hesaplaması: Ekip, en yüksek son örnek kalitesini sağlamak için son gürültü giderme adımları için optimum ayarları kullanmıştır.

Hesaplamaya Yatırımın Etkinliği

Araştırmacılar, daha küçük diffusion modellerinde çıkarım zamanı ölçeklendirmenin etkinliğini araştırmışlardır. ImageNet için daha küçük modelleri ölçeklendirmenin çok verimli olabileceğini bulmuşlardır. Bazı durumlarda, daha küçük bir modelde arama yapmak, arama yapılmayan daha büyük modellerden daha iyi performans gösterebilir. Ancak, etkinlik daha küçük modelin temel performansına bağlıdır.

Metin tabanlı ayarlarda, hesaplamanın yalnızca bir kısmını kullanan PixArt-Σ, FLUX-1.dev'i geride bırakmıştır. Bu sonuçlar, eğitim sırasında harcanan önemli hesaplama kaynaklarının, üretim sırasında daha az hesaplama ile telafi edilebileceğini ve böylece daha verimli bir şekilde daha yüksek kaliteli örnekler elde edilebileceğini göstermektedir.