- Published on
बड़े मॉडलों का घनत्व नियम: स्केलिंग नियमों से परे एक नया दृष्टिकोण
बड़े मॉडलों का घनत्व नियम: स्केलिंग नियमों से परे एक नया दृष्टिकोण
त्सिंघुआ विश्वविद्यालय की एक टीम, जिसका नेतृत्व प्रोफेसर लियू झियुआन कर रहे हैं, ने बड़े मॉडलों के लिए "घनत्व नियम" प्रस्तावित किया है। यह नियम बताता है कि मॉडल की क्षमता का घनत्व लगभग हर 100 दिनों में दोगुना हो जाता है। यह नियम चिप उद्योग में मूर के नियम के समान है, लेकिन यह केवल मॉडल के आकार पर ध्यान केंद्रित करने के बजाय उसके मापदंडों की दक्षता पर केंद्रित है।
पृष्ठभूमि और प्रेरणा
परंपरागत स्केलिंग नियम बताते हैं कि मॉडल का प्रदर्शन उसके आकार (पैरामीटर) और प्रशिक्षण डेटा में वृद्धि के साथ कैसे बेहतर होता है। नया "घनत्व नियम" एक अलग दृष्टिकोण प्रस्तुत करता है, जो मापदंडों के प्रभावी उपयोग और समय के साथ मॉडल की दक्षता में तेजी से सुधार पर जोर देता है। अनुसंधान टीम "क्षमता घनत्व" की अवधारणा को पेश करती है, जो प्रभावी मापदंडों और वास्तविक मापदंडों के अनुपात को मापती है।
मुख्य अवधारणाएँ
- क्षमता घनत्व: इसे मॉडल में "प्रभावी मापदंडों" की संख्या और वास्तविक मापदंडों की संख्या के अनुपात के रूप में परिभाषित किया गया है।
- प्रभावी पैरामीटर: एक संदर्भ मॉडल को लक्ष्य मॉडल के समान प्रदर्शन प्राप्त करने के लिए आवश्यक मापदंडों की न्यूनतम संख्या।
- संदर्भ मॉडल: एक मॉडल जिसका उपयोग अन्य मॉडलों के प्रभावी पैरामीटर गणना को निर्धारित करने के लिए बेंचमार्क के रूप में किया जाता है।
- हानि अनुमान: संदर्भ मॉडल की एक श्रृंखला का उपयोग करके मॉडल मापदंडों और हानि के बीच संबंध को फिट करने की प्रक्रिया।
- प्रदर्शन अनुमान: मॉडल में नई क्षमताओं के उद्भव पर विचार करते हुए, हानि और प्रदर्शन के बीच एक पूर्ण मानचित्रण स्थापित करने की प्रक्रिया।
घनत्व नियम
बड़े भाषा मॉडल (एलएलएम) का अधिकतम क्षमता घनत्व समय के साथ तेजी से बढ़ता है। इस वृद्धि के लिए सूत्र इस प्रकार व्यक्त किया गया है: ln(ρmax) = At + B, जहाँ ρmax समय t पर अधिकतम क्षमता घनत्व है। यह नियम बताता है कि अत्याधुनिक मॉडलों का प्रदर्शन हर 3.3 महीने (लगभग 100 दिन) में आधे मापदंडों के साथ प्राप्त किया जा सकता है।
घनत्व नियम के निहितार्थ
- कम अनुमान लागत: मॉडल अनुमान लागत समय के साथ तेजी से घट रही है। उदाहरण के लिए, GPT-3.5 से Gemini-1.5-Flash तक प्रति मिलियन टोकन की लागत में काफी कमी आई है।
- त्वरित क्षमता घनत्व वृद्धि: ChatGPT के जारी होने के बाद से, क्षमता घनत्व में वृद्धि की दर में तेजी आई है।
- मूर के नियम और घनत्व नियम का अभिसरण: बढ़ती चिप घनत्व (मूर का नियम) और मॉडल क्षमता घनत्व (घनत्व नियम) का प्रतिच्छेदन शक्तिशाली ऑन-डिवाइस एआई की क्षमता को इंगित करता है।
- मॉडल संपीड़न की सीमाएँ: अकेले मॉडल संपीड़न तकनीकें क्षमता घनत्व को नहीं बढ़ा सकती हैं। वास्तव में, अधिकांश संपीड़ित मॉडलों में उनके मूल समकक्षों की तुलना में कम घनत्व होता है।
- लघु मॉडल जीवनचक्र: क्षमता घनत्व में तेजी से वृद्धि का मतलब है कि उच्च प्रदर्शन वाले मॉडलों का प्रभावी जीवनकाल कम होता जा रहा है, जिससे लाभप्रदता के लिए एक संक्षिप्त विंडो बन रही है।
व्यापक संदर्भ
घनत्व नियम एक बड़े प्रवृत्ति का हिस्सा है जहां एआई युग के मूल इंजन - बिजली, कंप्यूटिंग शक्ति और बुद्धि - सभी तेजी से घनत्व वृद्धि का अनुभव कर रहे हैं। पिछले 20 वर्षों में बैटरी ऊर्जा घनत्व चौगुना हो गया है। चिप ट्रांजिस्टर घनत्व हर 18 महीने में दोगुना हो जाता है (मूर का नियम)। एआई मॉडल क्षमता घनत्व हर 100 दिनों में दोगुना हो जाता है। यह प्रवृत्ति अधिक कुशल एआई की ओर बदलाव का सुझाव देती है, जिससे ऊर्जा और कंप्यूटिंग संसाधनों की मांग कम हो जाती है। एज कंप्यूटिंग और स्थानीय एआई मॉडल के उदय की उम्मीद है, जिससे एक ऐसा भविष्य बनेगा जहां एआई सर्वव्यापी होगा।
अतिरिक्त बिंदु
अनुसंधान टीम ने क्षमता घनत्व की प्रवृत्ति का विश्लेषण करने के लिए 29 व्यापक रूप से उपयोग किए जाने वाले ओपन-सोर्स बड़े मॉडलों का उपयोग किया। अध्ययन में इस बात पर प्रकाश डाला गया है कि अकेले मॉडल संपीड़न एल्गोरिदम पर निर्भर रहना मॉडल क्षमता घनत्व को बढ़ाने के लिए पर्याप्त नहीं हो सकता है। अनुसंधान पत्र यहां उपलब्ध है: Densing Law of LLMs
यह अध्ययन दर्शाता है कि कैसे बड़े भाषा मॉडल की दक्षता में सुधार हो रहा है और यह भविष्य में एआई के विकास को कैसे प्रभावित कर सकता है।