- Published on
Penskalaan Inferens Model Difusi Paradigma Baru
Pengenalan
Kemajuan terkini dalam Model Bahasa Besar (LLM) telah menunjukkan keberkesanan penskalaan semasa inferens. Model seperti o1, o3, DeepSeek R1, QwQ, dan Step Reasoner mini telah menunjukkan bahawa peningkatan pengiraan semasa inferens boleh meningkatkan prestasi dengan ketara. Ini menimbulkan persoalan: adakah prinsip ini boleh digunakan untuk model difusi juga?
Satu pasukan yang diketuai oleh Xie Saining di New York University telah meneroka soalan ini. Melalui penyelidikan sistematik menggunakan rangka kerja carian umum, mereka mendapati bahawa penskalaan masa inferens sememangnya berkesan untuk model difusi. Peningkatan pengiraan semasa inferens membawa kepada peningkatan yang ketara dalam kualiti sampel yang dihasilkan. Selain itu, kerumitan imej membolehkan kombinasi komponen yang berbeza dalam rangka kerja, disesuaikan dengan pelbagai senario aplikasi.
Penemuan Utama
- Penskalaan masa inferens berkesan untuk model difusi: Mengagihkan lebih banyak sumber pengiraan semasa inferens menghasilkan sampel berkualiti tinggi.
- Fleksibiliti dalam kombinasi komponen: Rangka kerja ini membolehkan konfigurasi komponen yang berbeza, memenuhi pelbagai aplikasi.
- Melangkaui Langkah Denois: Kajian ini mencadangkan bahawa mencari bunyi yang lebih baik semasa pensampelan adalah satu lagi dimensi untuk menskalakan NFE, di luar hanya meningkatkan langkah denois.
- Dua Paksi Reka Bentuk: Rangka kerja ini memfokuskan pada dua paksi reka bentuk utama:
- Pengesah (Verifiers): Memberikan maklum balas semasa proses carian.
- Algoritma: Mencari calon bunyi yang lebih baik.
Metodologi Penyelidikan
Pasukan itu meneroka tiga senario berbeza untuk pengesah, mensimulasikan pelbagai kes penggunaan:
- Senario di mana maklumat istimewa tentang penilaian akhir tersedia.
- Senario di mana maklumat bersyarat tersedia untuk membimbing penjanaan.
- Senario tanpa maklumat tambahan tersedia.
Untuk algoritma, mereka menyiasat:
- Carian Rawak (Random Search): Memilih yang terbaik daripada set calon tetap.
- Carian Peringkat Sifar (Zero-Order Search): Meningkatkan calon bunyi secara berulang menggunakan maklum balas pengesah.
- Carian Laluan (Path Search): Meningkatkan trajektori pensampelan difusi secara berulang menggunakan maklum balas pengesah.
Kajian ini pada mulanya meneroka reka bentuk ini dalam persediaan penjanaan bersyarat kelas ImageNet yang agak mudah. Seterusnya, mereka menggunakan reka bentuk ini untuk penjanaan bersyarat teks berskala lebih besar dan menilai rangka kerja yang dicadangkan.
Penskalaan Masa Inferens
Kertas kerja ini mencadangkan rangka kerja untuk menskalakan masa inferens dalam model difusi, membingkai cabaran sebagai carian untuk bunyi pensampelan optimum. Proses ini melibatkan dua komponen teras:
- Pengesah (Verifiers): Ini adalah model terlatih yang menilai kualiti sampel yang dihasilkan. Mereka mengambil sampel yang dihasilkan, bersama dengan syarat pilihan, dan mengeluarkan skor skalar.
- Algoritma: Algoritma ini menggunakan skor pengesah untuk mencari sampel calon yang lebih baik. Fungsi ini mengambil pengesah (V), model difusi terlatih (_θ), dan satu set sampel dan syarat yang dihasilkan, mengeluarkan bunyi awal terbaik.
Jumlah belanjawan inferens diukur dengan jumlah bilangan penilaian fungsi (NFE), termasuk kedua-dua langkah denois dan kos carian.
Pengesah Carian
Para penyelidik bermula dengan pengesah Oracle, yang mempunyai maklumat lengkap tentang penilaian akhir sampel yang dipilih. Untuk ImageNet, ini termasuk metrik seperti FID dan IS. Mereka kemudian meneroka model terlatih yang lebih mudah diakses sebagai pengesah yang diselia, seperti CLIP dan DINO. Model ini digunakan untuk mengklasifikasikan sampel, memilih sampel dengan logit tertinggi yang sepadan dengan label kelas.
Walau bagaimanapun, mereka mendapati bahawa pengelas ini, yang beroperasi secara titik demi titik, hanya sebahagiannya sejajar dengan objektif skor FID. Ini membawa kepada pengurangan varians sampel dan keruntuhan mod apabila pengiraan meningkat. Fenomena ini, yang dipanggil "penggodaman pengesah," dipercepatkan oleh ruang carian tanpa had bagi algoritma carian rawak.
Menariknya, kajian mendapati bahawa pengesah tidak semestinya memerlukan maklumat bersyarat untuk membimbing carian dengan berkesan. Mereka memerhatikan korelasi yang kuat antara logit daripada pengelas DINO/CLIP dan persamaan kosinus ruang ciri antara ramalan x pada tahap bunyi yang rendah dan sampel bersih akhir. Ini membawa kepada penggunaan pengesah kendiri, yang tidak memerlukan maklumat bersyarat tambahan dan masih menunjukkan tingkah laku penskalaan yang berkesan.
Algoritma Carian
Untuk mengurangkan penggodaman pengesah, para penyelidik meneroka algoritma carian yang lebih halus yang mengoptimumkan sampel calon secara beransur-ansur. Ini termasuk kaedah carian peringkat sifar:
- Bermula dengan bunyi Gaussian rawak sebagai titik pangsi.
- Mencari N calon di kejiranan titik pangsi.
- Menjalankan calon melalui penyelesai ODE untuk mendapatkan sampel dan skor pengesah.
- Mengemas kini titik pangsi dengan calon terbaik dan mengulangi langkah 1-3.
Mereka juga menyiasat algoritma carian laluan, yang meneroka kemungkinan mencari di sepanjang trajektori pensampelan:
- Pensampelan N sampel bunyi awal dan menjalankan penyelesai ODE ke tahap bunyi σ.
- Menambah bunyi pada setiap sampel, dan mensimulasikan proses bunyi ke hadapan.
- Menjalankan penyelesai ODE pada setiap sampel bising dan mengekalkan N calon teratas berdasarkan skor pengesah, mengulangi sehingga penyelesai ODE mencapai σ=0.
- Mencari secara rawak baki N sampel dan mengekalkan yang terbaik.
Kedua-dua algoritma carian peringkat sifar dan laluan mengekalkan lokaliti yang kuat berbanding carian rawak.
Penskalaan dalam Senario Teks-Ke-Imej
Pasukan itu mengkaji keupayaan penskalaan rangka kerja carian dalam tugas teks-ke-imej berskala lebih besar. Mereka menggunakan set data DrawBench dan T2I-CompBench untuk penilaian, dengan model FLUX.1-dev sebagai tulang belakang. Mereka juga memperluaskan pemilihan pengesah yang diselia, termasuk Aesthetic Score Predictor, CLIPScore, dan ImageReward. Selain itu, mereka mencipta Verifier Ensemble dengan menggabungkan ketiga-tiga pengesah ini.
Analisis: Penjajaran Pengesah-Tugas
Kajian ini membandingkan keputusan pelbagai kombinasi pengesah-algoritma pada set data yang berbeza. Pada DrawBench, mereka mendapati bahawa menggunakan semua pengesah secara amnya meningkatkan kualiti sampel. Walau bagaimanapun, mereka mendapati bahawa menggunakan pengesah Aesthetic dan CLIP secara berasingan boleh menyebabkan overfitting bias mereka, mengakibatkan kesan negatif antara satu sama lain. Ini berpunca daripada ketidakpadanan dalam fokus penilaian mereka:
- Aesthetic Score memfokuskan pada kualiti visual, sering memihak kepada imej yang sangat bergaya.
- CLIP mengutamakan penjajaran visual-teks, kadangkala mengorbankan kualiti visual.
Mereka menyatakan bahawa beberapa pengesah lebih sesuai untuk tugas tertentu, dan keberkesanan pengesah bergantung pada penjajarannya dengan keperluan tugas.
Prestasi Algoritma
Ketiga-tiga algoritma carian (Rawak, Peringkat Sifar dan Laluan) semuanya meningkatkan kualiti pensampelan pada DrawBench dengan berkesan. Walau bagaimanapun, Carian Rawak mengatasi dalam beberapa aspek disebabkan oleh sifat tempatan dua kaedah lain. Carian rawak menumpu lebih cepat kepada bias pengesah, manakala dua algoritma lain memerlukan peningkatan pada calon yang kurang optimum.
Keserasian Dengan Penalaan Halus
Pasukan itu menyiasat keserasian kaedah carian mereka dengan model yang ditala halus. Mereka menggunakan model Stable Diffusion XL yang ditala halus DPO dan mendapati bahawa kaedah carian boleh digeneralisasikan kepada model yang berbeza dan meningkatkan prestasi model yang sudah sejajar.
Kesan Dimensi Pengiraan Inferens yang Berbeza
Kajian ini meneroka bagaimana aspek pengiraan inferens yang berbeza mempengaruhi keputusan:
- Bilangan Iterasi Carian: Peningkatan iterasi membawa bunyi lebih dekat dengan optimum.
- Pengiraan per Iterasi Carian: Melaraskan bilangan langkah denois per iterasi mendedahkan kawasan optimum pengiraan yang berbeza.
- Pengiraan Penjanaan Akhir: Pasukan menggunakan tetapan optimum untuk langkah denois akhir untuk memastikan kualiti sampel akhir tertinggi.
Keberkesanan Pelaburan dalam Pengiraan
Para penyelidik meneroka keberkesanan penskalaan masa inferens pada model difusi yang lebih kecil. Mereka mendapati bahawa, untuk ImageNet, penskalaan model yang lebih kecil boleh menjadi sangat cekap. Dalam kes tertentu, mencari pada model yang lebih kecil boleh mengatasi model yang lebih besar tanpa carian. Walau bagaimanapun, keberkesanannya bergantung pada prestasi asas model yang lebih kecil.
Dalam tetapan berasaskan teks, PixArt-Σ, yang menggunakan hanya sebahagian kecil daripada pengiraan, mengatasi FLUX-1.dev. Keputusan ini menunjukkan bahawa sumber pengiraan yang besar yang dibelanjakan semasa latihan boleh diimbangi dengan jumlah pengiraan yang lebih kecil semasa penjanaan, menghasilkan sampel berkualiti tinggi dengan lebih cekap.