डिफ्यूजन मॉडल अनुमान स्केलिंग नया प्रतिमान

परिचय

हाल ही में बड़े भाषा मॉडलों (LLMs) में प्रगति ने अनुमान के दौरान स्केलिंग की प्रभावशीलता का प्रदर्शन किया है। o1, o3, DeepSeek R1, QwQ, और Step Reasoner mini जैसे मॉडलों ने दिखाया है कि अनुमान के दौरान बढ़ी हुई गणना प्रदर्शन में काफी सुधार कर सकती है। इससे सवाल उठता है: क्या इस सिद्धांत को डिफ्यूजन मॉडल पर भी लागू किया जा सकता है?

न्यूयॉर्क विश्वविद्यालय में Xie Saining के नेतृत्व में एक टीम ने इसी सवाल का पता लगाया है। एक सामान्य खोज ढांचे का उपयोग करके एक व्यवस्थित जांच के माध्यम से, उन्होंने पाया कि डिफ्यूजन मॉडल के लिए अनुमान-समय स्केलिंग वास्तव में प्रभावी है। अनुमान के दौरान गणना बढ़ाने से उत्पन्न नमूनों की गुणवत्ता में महत्वपूर्ण सुधार होता है। इसके अलावा, छवियों की जटिलता ढांचे के भीतर विभिन्न घटकों के संयोजन की अनुमति देती है, जो विभिन्न अनुप्रयोग परिदृश्यों के अनुरूप होती हैं।

मुख्य निष्कर्ष

डिफ्यूजन मॉडल के लिए अनुमान-समय स्केलिंग प्रभावी है: अनुमान के दौरान अधिक कम्प्यूटेशनल संसाधन आवंटित करने से उच्च गुणवत्ता वाले नमूने मिलते हैं।
घटक संयोजनों में लचीलापन: ढांचा विभिन्न अनुप्रयोगों के लिए अलग-अलग घटक कॉन्फ़िगरेशन की अनुमति देता है।
डेनोइजिंग चरणों से परे: शोध से पता चलता है कि नमूनाकरण के दौरान बेहतर शोर की तलाश करना एनएफई को बढ़ाने का एक और आयाम है, न कि केवल डेनोइजिंग चरणों को बढ़ाना।
दो डिज़ाइन अक्ष: ढाँचा दो मुख्य डिज़ाइन अक्षों पर केंद्रित है:
- सत्यापनकर्ता: खोज प्रक्रिया के दौरान प्रतिक्रिया प्रदान करना।
- एल्गोरिदम: बेहतर शोर उम्मीदवारों को ढूंढना।

अनुसंधान पद्धति

टीम ने सत्यापनकर्ताओं के लिए तीन अलग-अलग परिदृश्यों का पता लगाया, विभिन्न उपयोग मामलों का अनुकरण किया:

ऐसे परिदृश्य जहाँ अंतिम मूल्यांकन के बारे में विशेषाधिकार प्राप्त जानकारी उपलब्ध हो।
ऐसे परिदृश्य जहाँ पीढ़ी का मार्गदर्शन करने के लिए सशर्त जानकारी उपलब्ध हो।
ऐसे परिदृश्य जहाँ कोई अतिरिक्त जानकारी उपलब्ध न हो।

एल्गोरिदम के लिए, उन्होंने जांच की:

यादृच्छिक खोज: उम्मीदवारों के एक निश्चित सेट से सर्वश्रेष्ठ का चयन करना।
शून्य-क्रम खोज: सत्यापनकर्ता प्रतिक्रिया का उपयोग करके शोर उम्मीदवारों में पुनरावृत्ति करके सुधार करना।
पथ खोज: सत्यापनकर्ता प्रतिक्रिया का उपयोग करके डिफ्यूजन नमूनाकरण प्रक्षेपवक्र में पुनरावृत्ति करके सुधार करना।

अध्ययन ने शुरू में इन डिजाइनों की अपेक्षाकृत सरल ImageNet वर्ग-सशर्त पीढ़ी सेटअप में खोज की। इसके बाद, उन्होंने इन डिजाइनों को बड़े पैमाने पर टेक्स्ट-सशर्त पीढ़ी पर लागू किया और अपने प्रस्तावित ढांचे का मूल्यांकन किया।

अनुमान समय को बढ़ाना

पेपर डिफ्यूजन मॉडल में अनुमान समय को बढ़ाने के लिए एक ढांचा प्रस्तावित करता है, जो इष्टतम नमूनाकरण शोर की खोज के रूप में चुनौती को तैयार करता है। इस प्रक्रिया में दो मुख्य घटक शामिल हैं:

सत्यापनकर्ता: ये पूर्व-प्रशिक्षित मॉडल हैं जो उत्पन्न नमूनों की गुणवत्ता का आकलन करते हैं। वे उत्पन्न नमूनों को, वैकल्पिक शर्तों के साथ, लेते हैं और एक अदिश स्कोर आउटपुट करते हैं।
एल्गोरिदम: ये एल्गोरिदम बेहतर उम्मीदवार नमूने खोजने के लिए सत्यापनकर्ता स्कोर का उपयोग करते हैं। फ़ंक्शन एक सत्यापनकर्ता (V), एक पूर्व-प्रशिक्षित डिफ्यूजन मॉडल (_θ), और उत्पन्न नमूनों और शर्तों का एक सेट लेता है, सबसे अच्छा प्रारंभिक शोर आउटपुट करता है।

कुल अनुमान बजट को फ़ंक्शन मूल्यांकन की कुल संख्या (NFE) द्वारा मापा जाता है, जिसमें डेनोइजिंग चरण और खोज लागत दोनों शामिल हैं।

खोज सत्यापनकर्ता

शोधकर्ताओं ने एक Oracle सत्यापनकर्ता के साथ शुरुआत की, जिसके पास चयनित नमूनों के अंतिम मूल्यांकन के बारे में पूरी जानकारी है। ImageNet के लिए, इसमें FID और IS जैसे मेट्रिक्स शामिल थे। फिर उन्होंने CLIP और DINO जैसे पर्यवेक्षित सत्यापनकर्ताओं के रूप में अधिक सुलभ पूर्व-प्रशिक्षित मॉडल की खोज की। इन मॉडलों का उपयोग नमूनों को वर्गीकृत करने के लिए किया गया था, जिसमें वर्ग लेबल के अनुरूप उच्चतम लॉजिट वाले नमूने का चयन किया गया था।

हालांकि, उन्होंने देखा कि ये वर्गीकरणकर्ता, बिंदु-वार काम करते हुए, FID स्कोर के उद्देश्यों के साथ आंशिक रूप से ही संरेखित होते हैं। इससे गणना बढ़ने पर नमूना विचरण और मोड पतन में कमी आई। इस घटना को "सत्यापनकर्ता हैकिंग" कहा गया, जिसे यादृच्छिक खोज एल्गोरिथम के अप्रतिबंधित खोज स्थान द्वारा तेज किया गया।

दिलचस्प बात यह है कि अध्ययन में पाया गया कि सत्यापनकर्ताओं को खोज का प्रभावी ढंग से मार्गदर्शन करने के लिए सशर्त जानकारी की आवश्यकता नहीं है। उन्होंने DINO/CLIP वर्गीकरणकर्ताओं के लॉजिट्स और कम शोर स्तर पर x भविष्यवाणी और अंतिम स्वच्छ नमूने के बीच फीचर स्पेस की कोसाइन समानता के बीच एक मजबूत संबंध देखा। इससे स्व-पर्यवेक्षित सत्यापनकर्ताओं का उपयोग हुआ, जिसके लिए अतिरिक्त सशर्त जानकारी की आवश्यकता नहीं होती है और फिर भी प्रभावी स्केलिंग व्यवहार प्रदर्शित किया गया।

खोज एल्गोरिदम

सत्यापनकर्ता हैकिंग को कम करने के लिए, शोधकर्ताओं ने अधिक परिष्कृत खोज एल्गोरिदम की खोज की जो उम्मीदवार नमूनों को धीरे-धीरे अनुकूलित करते हैं। इसमें एक शून्य-क्रम खोज विधि शामिल थी:

एक पिवट बिंदु के रूप में एक यादृच्छिक गाऊसी शोर के साथ शुरुआत करना।
पिवट बिंदु के पड़ोस में एन उम्मीदवारों को खोजना।
नमूनों और सत्यापनकर्ता स्कोर प्राप्त करने के लिए ओडीई सॉल्वर के माध्यम से उम्मीदवारों को चलाना।
सबसे अच्छे उम्मीदवार के साथ पिवट बिंदु को अपडेट करना और चरण 1-3 को दोहराना।

उन्होंने एक पथ खोज एल्गोरिथम की भी जांच की, जो नमूनाकरण प्रक्षेपवक्र के साथ खोज की संभावना का पता लगाता है:

एन प्रारंभिक शोर नमूनों का नमूना लेना और ओडीई सॉल्वर को शोर स्तर σ तक चलाना।
प्रत्येक नमूने में शोर जोड़ना और आगे शोर प्रक्रिया का अनुकरण करना।
प्रत्येक शोर नमूने पर एक ओडीई सॉल्वर चलाना और सत्यापनकर्ता स्कोर के आधार पर शीर्ष एन उम्मीदवारों को रखना, जब तक ओडीई सॉल्वर σ=0 तक नहीं पहुंच जाता, तब तक दोहराना।
शेष एन नमूनों को यादृच्छिक रूप से खोजना और सबसे अच्छा रखना।

शून्य-क्रम और पथ खोज एल्गोरिदम दोनों यादृच्छिक खोज की तुलना में एक मजबूत स्थानीयता बनाए रखते हैं।

टेक्स्ट-टू-इमेज परिदृश्यों में स्केलिंग

टीम ने बड़े पैमाने पर टेक्स्ट-टू-इमेज कार्यों में खोज ढांचे की स्केलिंग क्षमताओं की जांच की। उन्होंने मूल्यांकन के लिए DrawBench और T2I-CompBench डेटासेट का उपयोग किया, जिसमें FLUX.1-dev मॉडल बैकबोन के रूप में था। उन्होंने एस्थेटिक स्कोर प्रेडिक्टर, CLIPScore और ImageReward सहित पर्यवेक्षित सत्यापनकर्ताओं के चयन का भी विस्तार किया। इसके अतिरिक्त, उन्होंने इन तीनों सत्यापनकर्ताओं को मिलाकर एक सत्यापनकर्ता पहनावा बनाया।

विश्लेषण: सत्यापनकर्ता-कार्य संरेखण

अध्ययन में विभिन्न डेटासेट पर विभिन्न सत्यापनकर्ता-एल्गोरिथम संयोजनों के परिणामों की तुलना की गई। DrawBench पर, उन्होंने पाया कि सभी सत्यापनकर्ताओं का उपयोग करने से आम तौर पर नमूना गुणवत्ता में सुधार होता है। हालांकि, उन्होंने देखा कि अकेले एस्थेटिक और CLIP सत्यापनकर्ताओं का उपयोग करने से उनके पूर्वाग्रहों का अत्यधिक अनुकूलन हो सकता है, जिसके परिणामस्वरूप एक-दूसरे पर नकारात्मक प्रभाव पड़ते हैं। यह उनके मूल्यांकन फोकस में बेमेल होने के कारण है: एस्थेटिक स्कोर दृश्य गुणवत्ता पर केंद्रित है, अक्सर अत्यधिक शैलीबद्ध छवियों का पक्ष लेता है, जबकि CLIP दृश्य-पाठ संरेखण को प्राथमिकता देता है, कभी-कभी दृश्य गुणवत्ता का त्याग करता है। उन्होंने नोट किया कि कुछ सत्यापनकर्ता विशिष्ट कार्यों के लिए अधिक उपयुक्त हैं, और एक सत्यापनकर्ता की प्रभावशीलता कार्य आवश्यकताओं के साथ इसके संरेखण पर निर्भर करती है।

एल्गोरिथम प्रदर्शन

तीनों खोज एल्गोरिदम (यादृच्छिक, शून्य-क्रम और पथ) सभी ने DrawBench पर नमूना गुणवत्ता में प्रभावी ढंग से सुधार किया। हालांकि, अन्य दो विधियों की स्थानीय प्रकृति के कारण यादृच्छिक खोज ने कुछ पहलुओं में बेहतर प्रदर्शन किया। यादृच्छिक खोज सत्यापनकर्ता पूर्वाग्रह में अधिक तेज़ी से परिवर्तित हो गई, जबकि अन्य दो एल्गोरिदम को इष्टतम उम्मीदवारों से कम पर सुधार की आवश्यकता है।

फाइन-ट्यूनिंग के साथ संगतता

टीम ने फाइन-ट्यून किए गए मॉडलों के साथ अपनी खोज विधि की संगतता की जांच की। उन्होंने एक डीपीओ-फाइन-ट्यून किए गए स्टेबल डिफ्यूजन एक्सएल मॉडल का उपयोग किया और पाया कि खोज विधि को विभिन्न मॉडलों के लिए सामान्यीकृत किया जा सकता है और पहले से ही संरेखित मॉडलों के प्रदर्शन में सुधार किया जा सकता है।

अनुमान गणना के विभिन्न आयामों के प्रभाव

अध्ययन में पता लगाया गया कि अनुमान गणना के विभिन्न पहलू परिणामों को कैसे प्रभावित करते हैं:

खोज पुनरावृत्तियों की संख्या: पुनरावृत्तियों को बढ़ाने से शोर इष्टतम के करीब आता है।
खोज पुनरावृत्ति प्रति गणना: पुनरावृत्ति प्रति डेनोइजिंग चरणों की संख्या को समायोजित करने से अलग-अलग कम्प्यूटेशनल रूप से इष्टतम क्षेत्र सामने आते हैं।
अंतिम पीढ़ी गणना: टीम ने उच्चतम अंतिम नमूना गुणवत्ता सुनिश्चित करने के लिए अंतिम डेनोइजिंग चरणों के लिए इष्टतम सेटिंग्स का उपयोग किया।

गणना में निवेश की प्रभावशीलता

शोधकर्ताओं ने छोटे डिफ्यूजन मॉडलों पर अनुमान-समय स्केलिंग की प्रभावशीलता का पता लगाया। उन्होंने पाया कि ImageNet के लिए, छोटे मॉडलों को स्केल करना बहुत कुशल हो सकता है। कुछ मामलों में, छोटे मॉडल पर खोज करना बिना खोज के बड़े मॉडल से बेहतर प्रदर्शन कर सकता है। हालांकि, प्रभावशीलता छोटे मॉडल के बेसलाइन प्रदर्शन पर निर्भर करती है।

टेक्स्ट-आधारित सेटिंग्स में, PixArt-Σ, गणना का केवल एक अंश का उपयोग करके, FLUX-1.dev से बेहतर प्रदर्शन किया। इन परिणामों से पता चलता है कि प्रशिक्षण के दौरान खर्च किए गए महत्वपूर्ण कम्प्यूटेशनल संसाधनों को पीढ़ी के दौरान कम मात्रा में गणना द्वारा ऑफसेट किया जा सकता है, जिसके परिणामस्वरूप उच्च गुणवत्ता वाले नमूने अधिक कुशलता से प्राप्त होते हैं।