Diffusion Model Inferenz Skalierung Neues Paradigma

Einführung

Die jüngsten Fortschritte bei Large Language Models (LLMs) haben die Effektivität der Skalierung während der Inferenz gezeigt. Modelle wie o1, o3, DeepSeek R1, QwQ und Step Reasoner mini haben gezeigt, dass eine erhöhte Rechenleistung während der Inferenz die Leistung signifikant verbessern kann. Dies wirft die Frage auf: Kann dieses Prinzip auch auf Diffusionsmodelle angewendet werden?

Ein Team unter der Leitung von Xie Saining an der New York University hat genau diese Frage untersucht. Durch eine systematische Untersuchung mit einem allgemeinen Suchrahmen fanden sie heraus, dass die Inferenzzeit-Skalierung tatsächlich auch für Diffusionsmodelle effektiv ist. Eine Erhöhung der Rechenleistung während der Inferenz führt zu einer signifikanten Verbesserung der Qualität der generierten Samples. Darüber hinaus ermöglicht die Komplexität von Bildern verschiedene Kombinationen von Komponenten innerhalb des Frameworks, die auf verschiedene Anwendungsszenarien zugeschnitten sind.

Wichtigste Erkenntnisse

Inferenzzeit-Skalierung ist effektiv für Diffusionsmodelle: Die Zuweisung von mehr Rechenressourcen während der Inferenz führt zu qualitativ hochwertigeren Samples.
Flexibilität bei den Komponenten-Kombinationen: Das Framework ermöglicht verschiedene Komponentenkonfigurationen, die auf verschiedene Anwendungen zugeschnitten sind.
Über die Denoising-Schritte hinaus: Die Forschung deutet darauf hin, dass die Suche nach besserem Rauschen während des Samplings eine weitere Dimension für die Skalierung von NFE darstellt, die über die bloße Erhöhung der Denoising-Schritte hinausgeht.
Zwei Designachsen: Das Framework konzentriert sich auf zwei Hauptdesignachsen:
- Verifizierer: Bereitstellung von Feedback während des Suchprozesses.
- Algorithmen: Finden besserer Rauschkandidaten.

Forschungsmethodik

Das Team untersuchte drei verschiedene Szenarien für Verifizierer, um verschiedene Anwendungsfälle zu simulieren:

Szenarien, in denen privilegierte Informationen über die endgültige Bewertung verfügbar sind.
Szenarien, in denen bedingte Informationen zur Steuerung der Generierung verfügbar sind.
Szenarien ohne zusätzliche Informationen.

Für Algorithmen untersuchten sie:

Random Search: Auswahl des besten aus einer festen Anzahl von Kandidaten.
Zero-Order Search: Iterative Verbesserung von Rauschkandidaten unter Verwendung von Verifizierer-Feedback.
Path Search: Iterative Verbesserung von Diffusions-Sampling-Trajektorien unter Verwendung von Verifizierer-Feedback.

Die Studie untersuchte diese Designs zunächst in einem relativ einfachen ImageNet-Klassen-bedingten Generierungs-Setup. Anschließend wandten sie diese Designs auf die größere textbedingte Generierung an und evaluierten ihren vorgeschlagenen Rahmen.

Skalierung der Inferenzzeit

Das Papier schlägt ein Framework für die Skalierung der Inferenzzeit in Diffusionsmodellen vor, das die Herausforderung als Suche nach optimalem Sampling-Rauschen formuliert. Der Prozess umfasst zwei Kernkomponenten:

Verifizierer: Dies sind vortrainierte Modelle, die die Qualität der generierten Samples bewerten. Sie nehmen generierte Samples zusammen mit optionalen Bedingungen auf und geben einen Skalarwert aus.
Algorithmen: Diese Algorithmen verwenden die Verifizierer-Scores, um bessere Kandidaten-Samples zu finden. Die Funktion nimmt einen Verifizierer (V), ein vortrainiertes Diffusionsmodell (_θ) und eine Menge generierter Samples und Bedingungen auf und gibt das beste anfängliche Rauschen aus.

Das gesamte Inferenzbudget wird durch die Gesamtzahl der Funktionsauswertungen (NFE) gemessen, einschließlich der Denoising-Schritte und der Suchkosten.

Suchverifizierer

Die Forscher begannen mit einem Oracle-Verifizierer, der vollständige Informationen über die endgültige Bewertung ausgewählter Samples hat. Für ImageNet umfasste dies Metriken wie FID und IS. Anschließend untersuchten sie zugänglichere vortrainierte Modelle als überwachte Verifizierer, wie z.B. CLIP und DINO. Diese Modelle wurden verwendet, um Samples zu klassifizieren, wobei das Sample mit dem höchsten Logit, das dem Klassenlabel entspricht, ausgewählt wurde.

Sie stellten jedoch fest, dass diese Klassifikatoren, die punktweise arbeiten, nur teilweise mit den Zielen des FID-Scores übereinstimmen. Dies führte zu einer Verringerung der Samplevarianz und zu einem Moduskollaps, als die Rechenleistung zunahm. Dieses Phänomen, das als "Verifier Hacking" bezeichnet wird, wurde durch den uneingeschränkten Suchraum des Random-Search-Algorithmus beschleunigt.

Interessanterweise stellte die Studie fest, dass Verifizierer nicht unbedingt bedingte Informationen benötigen, um die Suche effektiv zu leiten. Sie beobachteten eine starke Korrelation zwischen den Logits von DINO/CLIP-Klassifikatoren und der Kosinusähnlichkeit des Feature-Raums zwischen der x-Vorhersage bei einem niedrigen Rauschpegel und dem finalen sauberen Sample. Dies führte zur Verwendung von selbstüberwachten Verifizierern, die keine zusätzlichen bedingten Informationen benötigen und dennoch ein effektives Skalierungsverhalten zeigten.

Suchalgorithmen

Um das Verifizierer-Hacking zu mildern, untersuchten die Forscher verfeinerte Suchalgorithmen, die Kandidaten-Samples schrittweise optimieren. Dazu gehörte eine Zero-Order-Suchmethode:

Beginnend mit einem zufälligen Gaußschen Rauschen als Drehpunkt.
Finden von N Kandidaten in der Nachbarschaft des Drehpunkts.
Ausführen von Kandidaten durch den ODE-Solver, um Samples und Verifizierer-Scores zu erhalten.
Aktualisierung des Drehpunkts mit dem besten Kandidaten und Wiederholung der Schritte 1-3.

Sie untersuchten auch einen Path-Search-Algorithmus, der die Möglichkeit untersucht, entlang der Sampling-Trajektorie zu suchen:

Sampling von N anfänglichen Rauschsamples und Ausführen des ODE-Solvers bis zu einem Rauschpegel σ.
Hinzufügen von Rauschen zu jedem Sample und Simulation eines Vorwärts-Rauschprozesses.
Ausführen eines ODE-Solvers auf jedem verrauschten Sample und Beibehalten der Top-N-Kandidaten basierend auf Verifizierer-Scores, Wiederholung bis der ODE-Solver σ=0 erreicht.
Zufällige Suche der verbleibenden N Samples und Beibehalten des besten.

Sowohl der Zero-Order- als auch der Path-Search-Algorithmus behalten eine starke Lokalität im Vergleich zur Random Search bei.

Skalierung in Text-zu-Bild-Szenarien

Das Team untersuchte die Skalierungsfähigkeiten des Suchrahmens in größeren Text-zu-Bild-Aufgaben. Sie verwendeten die Datensätze DrawBench und T2I-CompBench für die Evaluierung, wobei das FLUX.1-dev-Modell als Backbone diente. Sie erweiterten auch die Auswahl der überwachten Verifizierer, einschließlich Aesthetic Score Predictor, CLIPScore und ImageReward. Zusätzlich erstellten sie ein Verifizierer-Ensemble durch die Kombination dieser drei Verifizierer.

Analyse: Verifizierer-Aufgaben-Ausrichtung

Die Studie verglich die Ergebnisse verschiedener Verifizierer-Algorithmus-Kombinationen auf verschiedenen Datensätzen. Auf DrawBench stellten sie fest, dass die Verwendung aller Verifizierer im Allgemeinen die Samplequalität verbesserte. Sie beobachteten jedoch, dass die isolierte Verwendung von Aesthetic- und CLIP-Verifizierern zu einer Überanpassung ihrer Verzerrungen führen könnte, was sich negativ auf einander auswirkt. Dies beruht auf einer Diskrepanz in ihrem Evaluierungsfokus: Der Aesthetic Score konzentriert sich auf die visuelle Qualität und bevorzugt oft stark stilisierte Bilder, während CLIP die visuelle Textausrichtung priorisiert und manchmal die visuelle Qualität opfert. Sie stellten fest, dass einige Verifizierer für bestimmte Aufgaben besser geeignet sind und die Wirksamkeit eines Verifizierers von seiner Ausrichtung auf die Aufgabenanforderungen abhängt.

Algorithmusleistung

Die drei Suchalgorithmen (Random, Zero-Order und Path) verbesserten alle effektiv die Sampling-Qualität auf DrawBench. Random Search übertraf jedoch in einigen Aspekten aufgrund der lokalen Natur der beiden anderen Methoden. Die zufällige Suche konvergierte schneller zu einer Verifizierer-Verzerrung, während die beiden anderen Algorithmen eine Verbesserung bei weniger als optimalen Kandidaten erfordern.

Kompatibilität mit Feinabstimmung

Das Team untersuchte die Kompatibilität ihrer Suchmethode mit feinabgestimmten Modellen. Sie verwendeten ein DPO-feinabgestimmtes Stable Diffusion XL Modell und stellten fest, dass die Suchmethode auf verschiedene Modelle verallgemeinert werden kann und die Leistung bereits ausgerichteter Modelle verbessern kann.

Auswirkungen verschiedener Dimensionen der Inferenzberechnung

Die Studie untersuchte, wie sich verschiedene Aspekte der Inferenzberechnung auf die Ergebnisse auswirken:

Anzahl der Suchiterationen: Eine Erhöhung der Iterationen bringt das Rauschen näher an das Optimum.
Berechnung pro Suchiteration: Die Anpassung der Anzahl der Denoising-Schritte pro Iteration zeigt verschiedene rechnerisch optimale Bereiche.
Finale Generationsberechnung: Das Team verwendete optimale Einstellungen für die finalen Denoising-Schritte, um die höchste finale Samplequalität zu gewährleisten.

Effektivität der Investition in die Berechnung

Die Forscher untersuchten die Effektivität der Inferenzzeit-Skalierung bei kleineren Diffusionsmodellen. Sie fanden heraus, dass die Skalierung kleinerer Modelle für ImageNet sehr effizient sein kann. In bestimmten Fällen kann die Suche auf einem kleineren Modell größere Modelle ohne Suche übertreffen. Die Effektivität hängt jedoch von der Basisleistung des kleineren Modells ab.

In textbasierten Einstellungen übertraf PixArt-Σ, das nur einen Bruchteil der Rechenleistung verwendete, FLUX-1.dev. Diese Ergebnisse zeigen, dass erhebliche Rechenressourcen, die während des Trainings aufgewendet werden, durch geringere Rechenleistung während der Generierung kompensiert werden können, was zu qualitativ hochwertigeren Samples führt.