डिफ्यूजन मॉडेल अनुमान स्केलिंग नवीन प्रतिमान

प्रस्तावना

मोठ्या भाषिक मॉडेलमध्ये (LLMs) अनुमान दरम्यान स्केलिंगची प्रभावीता दिसून आली आहे. o1, o3, DeepSeek R1, QwQ, आणि Step Reasoner mini यांसारख्या मॉडेलने दाखवून दिले आहे की, अनुमान दरम्यान वाढीव संगणनामुळे कार्यक्षमतेत लक्षणीय सुधारणा होते. यामुळे प्रश्न निर्माण होतो की, हाच नियम डिफ्यूजन मॉडेलला लागू करता येईल का?

न्यूयॉर्क युनिव्हर्सिटीमधील झी सैनींग यांच्या नेतृत्वाखालील टीमने याच प्रश्नाचे उत्तर शोधण्याचा प्रयत्न केला आहे. एका सामान्य शोध फ्रेमवर्कचा वापर करून केलेल्या पद्धतशीर तपासणीमध्ये, त्यांना आढळले की अनुमान-वेळेनुसार स्केलिंग करणे डिफ्यूजन मॉडेलसाठी प्रभावी आहे. अनुमान दरम्यान जास्त संगणनामुळे तयार झालेल्या नमुन्यांच्या गुणवत्तेत लक्षणीय सुधारणा होते. तसेच, इमेजची जटिलता फ्रेमवर्कमधील घटकांच्या विविध संयोजनांना वाव देते, ज्यामुळे विविध ॲप्लिकेशन परिस्थितींमध्ये त्याचा वापर करता येतो.

मुख्य निष्कर्ष

डिफ्यूजन मॉडेलसाठी अनुमान-वेळेनुसार स्केलिंग प्रभावी आहे: अनुमान दरम्यान जास्त संगणकीय संसाधने वापरल्याने उच्च गुणवत्तेचे नमुने मिळतात.
घटक संयोजनांमध्ये लवचिकता: हे फ्रेमवर्क विविध ॲप्लिकेशन्ससाठी वेगवेगळ्या घटक कॉन्फिगरेशनला परवानगी देते.
डिनॉइजिंग स्टेप्सच्या पलीकडे: संशोधनात असे दिसून आले आहे की, नमुना घेताना उत्तम ध्वनी शोधणे हे NFE स्केलिंगचे आणखी एक परिमाण आहे, केवळ डिनॉइजिंग स्टेप्स वाढवण्यापेक्षा.
दोन डिझाइन अक्ष: फ्रेमवर्क दोन मुख्य डिझाइन अक्षांवर लक्ष केंद्रित करते:
- वेरिफायर्स: शोध प्रक्रियेदरम्यान अभिप्राय प्रदान करणे.
- अल्गोरिदम: उत्तम ध्वनी उमेदवार शोधणे.

संशोधन पद्धती

टीमने तीन वेगवेगळ्या परिस्थितींसाठी वेरिफायर्सचे परीक्षण केले:

अशी परिस्थिती जिथे अंतिम मूल्यांकनाबद्दल विशेषाधिकार माहिती उपलब्ध आहे.
अशी परिस्थिती जिथे जनरेशन मार्गदर्शन करण्यासाठी सशर्त माहिती उपलब्ध आहे.
अशी परिस्थिती जिथे कोणतीही अतिरिक्त माहिती उपलब्ध नाही.

अल्गोरिदमसाठी, त्यांनी खालील गोष्टी तपासल्या:

यादृच्छिक शोध: निश्चित केलेल्या उमेदवारांमधून सर्वोत्तम निवडणे.
शून्य-ऑर्डर शोध: वेरिफायर अभिप्रायाचा वापर करून ध्वनी उमेदवारांमध्ये वारंवार सुधारणा करणे.
पथ शोध: वेरिफायर अभिप्रायाचा वापर करून डिफ्यूजन नमुना मार्गांमध्ये वारंवार सुधारणा करणे.

सुरुवातीला, या डिझाइनची तपासणी इमेजनेट क्लास-कंडीशनल जनरेशन सेटअपमध्ये करण्यात आली. त्यानंतर, त्यांनी हे डिझाइन मोठ्या प्रमाणावर टेक्स्ट-कंडीशनल जनरेशनसाठी वापरले आणि त्यांच्या प्रस्तावित फ्रेमवर्कचे मूल्यांकन केले.

अनुमान वेळेनुसार स्केलिंग

पेपर डिफ्यूजन मॉडेलमध्ये अनुमान वेळेनुसार स्केलिंग करण्यासाठी एक फ्रेमवर्क प्रस्तावित करतो, जे इष्टतम नमुना ध्वनीचा शोध म्हणून आव्हान तयार करते. या प्रक्रियेत दोन मुख्य घटक आहेत:

वेरिफायर्स: हे प्री-ट्रेन केलेले मॉडेल आहेत जे तयार केलेल्या नमुन्यांच्या गुणवत्तेचे मूल्यांकन करतात. ते तयार केलेले नमुने, वैकल्पिक शर्तींसह, इनपुट म्हणून घेतात आणि एक स्केलर स्कोर आउटपुट करतात.
अल्गोरिदम: हे अल्गोरिदम चांगले उमेदवार नमुने शोधण्यासाठी वेरिफायर स्कोअरचा वापर करतात. फंक्शन एक वेरिफायर (V), प्री-ट्रेन केलेले डिफ्यूजन मॉडेल (_θ), आणि तयार केलेल्या नमुन्यांचा आणि शर्तींचा एक संच इनपुट म्हणून घेते आणि सर्वोत्तम प्रारंभिक ध्वनी आउटपुट करते.

एकूण अनुमान बजेट फंक्शन मूल्यांकनांच्या एकूण संख्येने (NFE) मोजले जाते, ज्यात डिनॉइजिंग स्टेप्स आणि शोध खर्चाचा समावेश आहे.

शोध वेरिफायर्स

संशोधकांनी Oracle वेरिफायरपासून सुरुवात केली, ज्यामध्ये निवडलेल्या नमुन्यांच्या अंतिम मूल्यांकनाची संपूर्ण माहिती आहे. इमेजनेटसाठी, यामध्ये FID आणि IS सारख्या मेट्रिक्सचा समावेश होता. त्यानंतर, त्यांनी CLIP आणि DINO सारख्या अधिक सुलभ प्री-ट्रेन केलेल्या मॉडेलचा पर्यवेक्षित वेरिफायर म्हणून शोध घेतला. या मॉडेलचा वापर नमुन्यांचे वर्गीकरण करण्यासाठी केला गेला आणि क्लास लेबलशी संबंधित असलेल्या सर्वाधिक लॉजिटचा नमुना निवडला गेला.

परंतु, त्यांना असे आढळले की हे क्लासिफायर, पॉइंट-वाइज काम करत असताना, FID स्कोअरच्या उद्देशांशी अंशतःच जुळतात. यामुळे नमुना भिन्नता कमी झाली आणि संगणन वाढल्याने मोड कोसळला. "वेरिफायर हॅकिंग" म्हणून ओळखली जाणारी ही घटना यादृच्छिक शोध अल्गोरिदमच्या अमर्यादित शोध जागेमुळे अधिक वेगाने वाढली.

विशेष म्हणजे, अभ्यासात असे आढळले आहे की, वेरिफायरला प्रभावीपणे मार्गदर्शन करण्यासाठी सशर्त माहितीची आवश्यकता नाही. DINO/CLIP क्लासिफायरमधील लॉजिट्स आणि कमी ध्वनी पातळीवरील x प्रेडिक्शन आणि अंतिम स्वच्छ नमुना यांच्यातील फीचर स्पेसच्या कोसाइन सिमिलॅरिटीमध्ये त्यांना एक मजबूत संबंध दिसला. यामुळे सेल्फ-सुपरवाइज्ड वेरिफायरचा वापर झाला, ज्यांना अतिरिक्त सशर्त माहितीची आवश्यकता नाही आणि तरीही प्रभावी स्केलिंग वर्तन दर्शविले.

शोध अल्गोरिदम

वेरिफायर हॅकिंग कमी करण्यासाठी, संशोधकांनी अधिक परिष्कृत शोध अल्गोरिदम शोधले जे उमेदवार नमुन्यांना हळूहळू ऑप्टिमाइझ करतात. यामध्ये शून्य-ऑर्डर शोध पद्धतीचा समावेश होता:

यादृच्छिक गॉसियन ध्वनीने पिव्होट पॉइंट म्हणून सुरुवात करणे.
पिव्होट पॉइंटच्या जवळपास N उमेदवार शोधणे.
नमुने आणि वेरिफायर स्कोअर मिळवण्यासाठी ODE सॉल्वरद्वारे उमेदवार चालवणे.
सर्वोत्तम उमेदवारासह पिव्होट पॉइंट अपडेट करणे आणि चरण 1-3 ची पुनरावृत्ती करणे.

त्यांनी पथ शोध अल्गोरिदमची देखील तपासणी केली, जे नमुना मार्गावर शोध घेण्याची शक्यता शोधते:

N प्रारंभिक ध्वनी नमुने घेणे आणि ODE सॉल्वरला ध्वनी पातळी σ पर्यंत चालवणे.
प्रत्येक नमुन्यात ध्वनी जोडणे आणि फॉरवर्ड नॉइजिंग प्रक्रियेचे अनुकरण करणे.
प्रत्येक नॉइजी नमुन्यावर ODE सॉल्वर चालवणे आणि वेरिफायर स्कोअरच्या आधारावर टॉप N उमेदवार ठेवणे, जोपर्यंत ODE सॉल्वर σ=0 पर्यंत पोहोचत नाही तोपर्यंत पुनरावृत्ती करणे.
उर्वरित N नमुन्यांमध्ये यादृच्छिकपणे शोध घेणे आणि सर्वोत्तम नमुना ठेवणे.

शून्य-ऑर्डर आणि पथ शोध अल्गोरिदम दोन्ही यादृच्छिक शोधाच्या तुलनेत मजबूत लोकॅलिटी राखतात.

टेक्स्ट-टू-इमेज परिस्थितींमध्ये स्केलिंग

टीमने मोठ्या प्रमाणावर टेक्स्ट-टू-इमेज कार्यांमध्ये शोध फ्रेमवर्कच्या स्केलिंग क्षमतेची तपासणी केली. त्यांनी ड्रॉ बेंच आणि T2I-CompBench डेटासेट मूल्यांकनासाठी वापरले, ज्यामध्ये FLUX.1-dev मॉडेल बॅकबोन म्हणून वापरले. त्यांनी पर्यवेक्षित वेरिफायरची निवड देखील वाढवली, ज्यात एस्थेटिक स्कोर प्रेडिक्टर, CLIPScore, आणि ImageReward यांचा समावेश आहे. याव्यतिरिक्त, त्यांनी या तीन वेरिफायरला एकत्र करून एक वेरिफायर एन्सेम्बल तयार केले.

विश्लेषण: वेरिफायर-कार्य संरेखन

अभ्यासात वेगवेगळ्या डेटासेटवर विविध वेरिफायर-अल्गोरिदम संयोजनांच्या निकालांची तुलना केली आहे. ड्रॉ बेंचवर, त्यांना असे आढळले की सर्व वेरिफायरचा वापर केल्याने नमुन्याची गुणवत्ता सुधारली आहे. तथापि, त्यांनी असे निरीक्षण केले की, एस्थेटिक आणि CLIP वेरिफायरचा स्वतंत्रपणे वापर केल्याने त्यांच्या पूर्वाग्रहांना जास्त महत्त्व मिळू शकते, ज्यामुळे एकमेकांवर नकारात्मक परिणाम होतो. याचे कारण त्यांच्या मूल्यमापनाच्या फोकसमध्ये जुळत नाही: एस्थेटिक स्कोर व्हिज्युअल गुणवत्तेवर लक्ष केंद्रित करतो, जे अनेकदा अत्यंत शैलीकृत प्रतिमांना प्राधान्य देतात, तर CLIP व्हिज्युअल-टेक्स्ट संरेखणाला प्राधान्य देते, ज्यामुळे कधीकधी व्हिज्युअल गुणवत्ता कमी होते. त्यांनी नमूद केले की काही वेरिफायर विशिष्ट कार्यांसाठी अधिक योग्य आहेत आणि वेरिफायरची प्रभावीता त्याच्या कार्य आवश्यकतांशी असलेल्या संरेखनावर अवलंबून असते.

अल्गोरिदम कार्यप्रदर्शन

तिन्ही शोध अल्गोरिदम (यादृच्छिक, शून्य-ऑर्डर आणि पथ) यांनी ड्रॉ बेंचवर नमुना गुणवत्तेत प्रभावीपणे सुधारणा केली. तथापि, इतर दोन पद्धतींच्या स्थानिक स्वरूपामुळे यादृच्छिक शोधाने काही पैलूंमध्ये उत्तम कामगिरी केली. यादृच्छिक शोध वेरिफायर पूर्वाग्रहांकडे अधिक लवकर पोहोचला, तर इतर दोन अल्गोरिदमला कमी इष्टतम उमेदवारांवर सुधारणा करणे आवश्यक आहे.

फाइन-ट्यूनिंगशी सुसंगतता

टीमने त्यांच्या शोध पद्धतीची फाइन-ट्यून केलेल्या मॉडेलशी सुसंगतता तपासली. त्यांनी DPO-फाइन-ट्यून केलेले स्टेबल डिफ्यूजन XL मॉडेल वापरले आणि त्यांना आढळले की शोध पद्धती वेगवेगळ्या मॉडेलसाठी सामान्यीकृत केली जाऊ शकते आणि आधीपासून संरेखित केलेल्या मॉडेलची कार्यक्षमता सुधारू शकते.

अनुमान संगणनाच्या वेगवेगळ्या परिणामांचा प्रभाव

अभ्यासात असे दिसून आले की, अनुमानाच्या संगणनाचे विविध पैलू निकालांवर कसा परिणाम करतात:

शोध पुनरावृत्तीची संख्या: पुनरावृत्ती वाढवल्याने ध्वनी इष्टतम पातळीच्या जवळ येतो.
शोध पुनरावृत्तीनुसार संगणन: प्रत्येक पुनरावृत्तीनुसार डिनॉइजिंग स्टेप्सची संख्या समायोजित केल्याने वेगवेगळ्या संगणकीय इष्टतम क्षेत्रांचा शोध लागतो.
अंतिम जनरेशन संगणन: टीमने अंतिम नमुन्याची गुणवत्ता सुनिश्चित करण्यासाठी अंतिम डिनॉइजिंग स्टेप्ससाठी इष्टतम सेटिंग्ज वापरल्या.

संगणनात गुंतवणुकीची प्रभावीता

संशोधकांनी लहान डिफ्यूजन मॉडेलवर अनुमान-वेळेनुसार स्केलिंगच्या प्रभावीतेचा शोध घेतला. त्यांना आढळले की, इमेजनेटसाठी, लहान मॉडेलचे स्केलिंग करणे खूप प्रभावी असू शकते. काही प्रकरणांमध्ये, लहान मॉडेलवर शोध घेणे मोठ्या मॉडेलपेक्षा अधिक चांगले प्रदर्शन करू शकते. तथापि, प्रभावीता लहान मॉडेलच्या बेसलाइन कार्यक्षमतेवर अवलंबून असते.

टेक्स्ट-आधारित सेटिंग्जमध्ये, PixArt-Σ ने FLUX-1.dev पेक्षा कमी संगणनाचा वापर करून चांगले प्रदर्शन केले. या परिणामांवरून दिसून येते की, प्रशिक्षणादरम्यान खर्च केलेली महत्त्वपूर्ण संगणकीय संसाधने जनरेशन दरम्यान कमी प्रमाणात संगणनाचा वापर करून भरून काढता येतात, ज्यामुळे उच्च गुणवत्तेचे नमुने अधिक कार्यक्षमतेने मिळतात.