Peningkatan Skala Inferensi Model Difusi Paradigma Baru

Pengantar

Kemajuan terkini dalam Large Language Models (LLMs) telah menunjukkan efektivitas penskalaan selama inferensi. Model seperti o1, o3, DeepSeek R1, QwQ, dan Step Reasoner mini telah menunjukkan bahwa peningkatan komputasi selama inferensi dapat meningkatkan kinerja secara signifikan. Hal ini menimbulkan pertanyaan: dapatkah prinsip ini diterapkan pada model difusi juga?

Sebuah tim yang dipimpin oleh Xie Saining di New York University telah mengeksplorasi pertanyaan ini. Melalui investigasi sistematis menggunakan kerangka pencarian umum, mereka menemukan bahwa penskalaan waktu inferensi memang efektif untuk model difusi. Peningkatan komputasi selama inferensi menghasilkan peningkatan kualitas sampel yang dihasilkan secara signifikan. Selain itu, kompleksitas gambar memungkinkan kombinasi komponen yang berbeda dalam kerangka kerja, yang disesuaikan dengan berbagai skenario aplikasi.

Temuan Utama

Penskalaan waktu inferensi efektif untuk model difusi: Mengalokasikan lebih banyak sumber daya komputasi selama inferensi menghasilkan sampel berkualitas lebih tinggi.
Fleksibilitas dalam kombinasi komponen: Kerangka kerja ini memungkinkan konfigurasi komponen yang berbeda, yang melayani berbagai aplikasi.
Di luar Langkah Denoising: Penelitian menunjukkan bahwa mencari kebisingan yang lebih baik selama sampling adalah dimensi lain untuk menskalakan NFE, di luar sekadar meningkatkan langkah denoising.
Dua Sumbu Desain: Kerangka kerja berfokus pada dua sumbu desain utama:
- Verifikator: Memberikan umpan balik selama proses pencarian.
- Algoritma: Menemukan kandidat kebisingan yang lebih baik.

Metodologi Penelitian

Tim mengeksplorasi tiga skenario berbeda untuk verifikator, mensimulasikan berbagai kasus penggunaan: 1. Skenario di mana informasi istimewa tentang evaluasi akhir tersedia. 2. Skenario di mana informasi kondisional tersedia untuk memandu generasi. 3. Skenario tanpa informasi tambahan yang tersedia.

Untuk algoritma, mereka menyelidiki: 1. Pencarian Acak: Memilih yang terbaik dari serangkaian kandidat tetap. 2. Pencarian Orde Nol: Secara iteratif meningkatkan kandidat kebisingan menggunakan umpan balik verifikator. 3. Pencarian Jalur: Secara iteratif meningkatkan lintasan sampling difusi menggunakan umpan balik verifikator.

Studi ini awalnya mengeksplorasi desain ini dalam pengaturan generasi kondisional kelas ImageNet yang relatif sederhana. Selanjutnya, mereka menerapkan desain ini untuk generasi kondisional teks skala yang lebih besar dan mengevaluasi kerangka kerja yang mereka usulkan.

Penskalaan Waktu Inferensi

Makalah ini mengusulkan kerangka kerja untuk menskalakan waktu inferensi dalam model difusi, membingkai tantangan sebagai pencarian kebisingan sampling yang optimal. Prosesnya melibatkan dua komponen inti:

Verifikator: Ini adalah model yang telah dilatih sebelumnya yang menilai kualitas sampel yang dihasilkan. Mereka mengambil sampel yang dihasilkan, bersama dengan kondisi opsional, dan mengeluarkan skor skalar.
Algoritma: Algoritma ini menggunakan skor verifikator untuk menemukan sampel kandidat yang lebih baik. Fungsi ini mengambil verifikator (V), model difusi yang telah dilatih sebelumnya (_θ), dan serangkaian sampel dan kondisi yang dihasilkan, menghasilkan kebisingan awal terbaik.

Total anggaran inferensi diukur dengan total jumlah evaluasi fungsi (NFE), termasuk langkah denoising dan biaya pencarian.

Verifikator Pencarian

Para peneliti memulai dengan verifikator Oracle, yang memiliki informasi lengkap tentang evaluasi akhir sampel yang dipilih. Untuk ImageNet, ini termasuk metrik seperti FID dan IS. Mereka kemudian mengeksplorasi model yang telah dilatih sebelumnya yang lebih mudah diakses sebagai verifikator yang diawasi, seperti CLIP dan DINO. Model-model ini digunakan untuk mengklasifikasikan sampel, memilih sampel dengan logit tertinggi yang sesuai dengan label kelas.

Namun, mereka mengamati bahwa pengklasifikasi ini, yang beroperasi titik demi titik, hanya sebagian selaras dengan tujuan skor FID. Hal ini menyebabkan pengurangan varians sampel dan mode collapse seiring dengan peningkatan komputasi. Fenomena ini, yang disebut "verifier hacking," dipercepat oleh ruang pencarian tak terbatas dari algoritma pencarian acak.

Menariknya, penelitian menemukan bahwa verifikator tidak perlu informasi kondisional untuk memandu pencarian secara efektif. Mereka mengamati korelasi yang kuat antara logit dari pengklasifikasi DINO/CLIP dan kesamaan kosinus dari ruang fitur antara prediksi x pada tingkat kebisingan rendah dan sampel bersih akhir. Hal ini menyebabkan penggunaan verifikator yang diawasi sendiri, yang tidak memerlukan informasi kondisional tambahan dan masih menunjukkan perilaku penskalaan yang efektif.

Algoritma Pencarian

Untuk mengurangi verifier hacking, para peneliti mengeksplorasi algoritma pencarian yang lebih halus yang mengoptimalkan sampel kandidat secara bertahap. Ini termasuk metode pencarian orde nol:

Memulai dengan kebisingan Gaussian acak sebagai titik pivot.
Menemukan N kandidat di lingkungan titik pivot.
Menjalankan kandidat melalui pemecah ODE untuk mendapatkan sampel dan skor verifikator.
Memperbarui titik pivot dengan kandidat terbaik dan mengulangi langkah 1-3.

Mereka juga menyelidiki algoritma pencarian jalur, yang mengeksplorasi kemungkinan mencari di sepanjang lintasan sampling:

Sampling N sampel kebisingan awal dan menjalankan pemecah ODE ke tingkat kebisingan σ.
Menambahkan kebisingan ke setiap sampel, dan mensimulasikan proses noising maju.
Menjalankan pemecah ODE pada setiap sampel yang berisik dan menyimpan N kandidat teratas berdasarkan skor verifikator, mengulangi hingga pemecah ODE mencapai σ=0.
Mencari secara acak sisa N sampel dan menyimpan yang terbaik.

Baik algoritma pencarian orde nol maupun jalur mempertahankan lokalitas yang kuat dibandingkan dengan pencarian acak.

Penskalaan Dalam Skenario Teks-ke-Gambar

Tim memeriksa kemampuan penskalaan kerangka pencarian dalam tugas teks-ke-gambar skala yang lebih besar. Mereka menggunakan dataset DrawBench dan T2I-CompBench untuk evaluasi, dengan model FLUX.1-dev sebagai tulang punggung. Mereka juga memperluas pilihan verifikator yang diawasi, termasuk Aesthetic Score Predictor, CLIPScore, dan ImageReward. Selain itu, mereka membuat Verifier Ensemble dengan menggabungkan ketiga verifikator ini.

Analisis: Penyelarasan Verifikator-Tugas

Studi ini membandingkan hasil dari berbagai kombinasi verifikator-algoritma pada dataset yang berbeda. Di DrawBench, mereka menemukan bahwa menggunakan semua verifikator umumnya meningkatkan kualitas sampel. Namun, mereka mengamati bahwa penggunaan verifikator Aesthetic dan CLIP secara terpisah dapat menyebabkan overfitting bias mereka, yang mengakibatkan dampak negatif satu sama lain. Ini berasal dari ketidakcocokan dalam fokus evaluasi mereka:

Aesthetic Score berfokus pada kualitas visual, sering kali lebih menyukai gambar yang sangat bergaya,
sementara CLIP memprioritaskan keselarasan visual-teks, terkadang mengorbankan kualitas visual.

Mereka mencatat bahwa beberapa verifikator lebih cocok untuk tugas-tugas tertentu, dan efektivitas verifikator bergantung pada keselarasannya dengan persyaratan tugas.

Kinerja Algoritma

Ketiga algoritma pencarian (Acak, Orde Nol, dan Jalur) semuanya secara efektif meningkatkan kualitas sampling di DrawBench. Namun, Pencarian Acak mengungguli dalam beberapa aspek karena sifat lokal dari dua metode lainnya. Pencarian acak lebih cepat menyatu ke bias verifikator, sedangkan dua algoritma lainnya memerlukan peningkatan pada kandidat yang kurang optimal.

Kompatibilitas Dengan Fine-Tuning

Tim menyelidiki kompatibilitas metode pencarian mereka dengan model yang disetel dengan baik. Mereka menggunakan model Stable Diffusion XL yang disetel dengan DPO dan menemukan bahwa metode pencarian dapat digeneralisasikan ke model yang berbeda dan meningkatkan kinerja model yang sudah selaras.

Efek Dimensi Komputasi Inferensi yang Berbeda

Studi ini mengeksplorasi bagaimana aspek komputasi inferensi yang berbeda memengaruhi hasil:

Jumlah Iterasi Pencarian: Meningkatkan iterasi membawa kebisingan lebih dekat ke optimum.
Komputasi per Iterasi Pencarian: Menyesuaikan jumlah langkah denoising per iterasi mengungkapkan wilayah optimal komputasi yang berbeda.
Komputasi Generasi Akhir: Tim menggunakan pengaturan optimal untuk langkah denoising akhir untuk memastikan kualitas sampel akhir tertinggi.

Efektivitas Investasi Dalam Komputasi

Para peneliti mengeksplorasi efektivitas penskalaan waktu inferensi pada model difusi yang lebih kecil. Mereka menemukan bahwa, untuk ImageNet, penskalaan model yang lebih kecil bisa sangat efisien. Dalam kasus tertentu, mencari pada model yang lebih kecil dapat mengungguli model yang lebih besar tanpa pencarian. Namun, efektivitasnya bergantung pada kinerja dasar model yang lebih kecil.

Dalam pengaturan berbasis teks, PixArt-Σ, yang hanya menggunakan sebagian kecil dari komputasi, mengungguli FLUX-1.dev. Hasil ini menunjukkan bahwa sumber daya komputasi yang signifikan yang dihabiskan selama pelatihan dapat diimbangi oleh jumlah komputasi yang lebih kecil selama generasi, menghasilkan sampel berkualitas lebih tinggi dengan lebih efisien.