Published on

मोठ्या मॉडेलचा घनता नियम: स्केलिंग कायद्यांच्या पलीकडे एक नवीन दृष्टीकोन

लेखक
  • avatar
    नाव
    Ajax
    Twitter

मोठ्या मॉडेलचा घनता नियम: स्केलिंग कायद्यांच्या पलीकडे एक नवीन दृष्टीकोन

परिचय

प्रोफेसर लिऊ झियुआन यांच्या नेतृत्वाखालील एका टीमने मोठ्या मॉडेलसाठी 'घनता नियम' प्रस्तावित केला आहे. हा नियम सूचित करतो की मॉडेलची क्षमता घनता सुमारे 100 दिवसात दुप्पट होते. चिप उद्योगातील मूरच्या नियमाप्रमाणेच, हा नियम केवळ मॉडेलच्या आकाराऐवजी पॅरामीटर्सच्या कार्यक्षमतेवर लक्ष केंद्रित करतो. पारंपरिक स्केलिंग कायदे मॉडेलचा आकार आणि प्रशिक्षण डेटा वाढल्याने कार्यक्षमता कशी सुधारते हे स्पष्ट करतात. मात्र, नवीन 'घनता नियम' पॅरामीटर्सच्या प्रभावी वापराला आणि मॉडेल कार्यक्षमतेतील जलद सुधारणेला महत्त्व देतो.

मुख्य संकल्पना

संशोधन टीमने 'क्षमता घनता' ही संकल्पना मांडली आहे, जी प्रभावी पॅरामीटर्स आणि प्रत्यक्ष पॅरामीटर्सचे गुणोत्तर दर्शवते.

  • क्षमता घनता: मॉडेलमधील 'प्रभावी पॅरामीटर्स' आणि प्रत्यक्ष पॅरामीटर्सचे गुणोत्तर.
  • प्रभावी पॅरामीटर्स: लक्ष्य मॉडेलच्या समान कार्यक्षमता प्राप्त करण्यासाठी संदर्भ मॉडेलला आवश्यक पॅरामीटर्सची किमान संख्या.
  • संदर्भ मॉडेल: इतर मॉडेलच्या प्रभावी पॅरामीटरची संख्या निर्धारित करण्यासाठी बेंचमार्क म्हणून वापरले जाणारे मॉडेल.
  • तोटा अंदाज: संदर्भ मॉडेलच्या मालिकेचा वापर करून मॉडेल पॅरामीटर्स आणि तोटा यांच्यातील संबंध जुळवण्याची प्रक्रिया.
  • कार्यक्षमता अंदाज: मॉडेलमध्ये नवीन क्षमतांचा उदय लक्षात घेऊन, तोटा आणि कार्यक्षमतेमधील संपूर्ण मॅपिंग स्थापित करण्याची प्रक्रिया.

घनता नियम

मोठ्या भाषिक मॉडेलची (LLMs) कमाल क्षमता घनता वेळेनुसार घातांकीय पद्धतीने वाढते. या वाढीसाठी सूत्र खालीलप्रमाणे आहे: ln(ρmax) = At + B, जेथे ρmax म्हणजे वेळ t असतानाची कमाल क्षमता घनता आहे. हा नियम सूचित करतो की अत्याधुनिक मॉडेलची कार्यक्षमता दर 3.3 महिन्यांनी (जवळपास 100 दिवसांनी) निम्म्या पॅरामीटर्समध्ये प्राप्त करता येते.

घनता नियमाचे परिणाम

  • कमी अनुमान खर्च: मॉडेलच्या अनुमानाचा खर्च वेळेनुसार घातांकीय पद्धतीने कमी होत आहे. उदाहरणार्थ, GPT-3.5 पासून Gemini-1.5-Flash पर्यंत प्रति दशलक्ष टोकनचा खर्च लक्षणीयरीत्या कमी झाला आहे.
  • त्वरित क्षमता घनता वाढ: ChatGPT च्या रिलीझ झाल्यापासून, क्षमता घनता वाढीचा दर अधिक वेगवान झाला आहे.
  • मूरचा नियम आणि घनता नियमाचा संगम: वाढती चिप घनता (मूरचा नियम) आणि मॉडेल क्षमता घनता (घनता नियम) यांचा संयोग शक्तिशाली ऑन-डिव्हाइस AI ची शक्यता दर्शवतो.
  • मॉडेल कॉम्प्रेशनची मर्यादा: केवळ मॉडेल कॉम्प्रेशन तंत्रज्ञानाने क्षमता घनता वाढवता येत नाही. खरं तर, बहुतेक कॉम्प्रेश केलेल्या मॉडेलमध्ये त्यांच्या मूळ मॉडेलपेक्षा कमी घनता असते.
  • मॉडेलचे कमी झालेले जीवनचक्र: क्षमता घनतेतील जलद वाढीमुळे उच्च-कार्यक्षमतेच्या मॉडेलचे प्रभावी आयुष्य कमी होत आहे, ज्यामुळे नफा मिळवण्याची संधी कमी होत आहे.

व्यापक संदर्भ

घनता नियम हा एका मोठ्या ट्रेंडचा भाग आहे, जिथे AI युगाची मुख्य इंजिने - वीज, संगणकीय शक्ती आणि बुद्धिमत्ता - सर्व जलद घनता वाढ अनुभवत आहेत.

  • बॅटरीची ऊर्जा घनता गेल्या 20 वर्षात चौपट झाली आहे.
  • चिपमधील ट्रांजिस्टरची घनता दर 18 महिन्यांनी दुप्पट होते (मूरचा नियम).
  • AI मॉडेलची क्षमता घनता दर 100 दिवसांनी दुप्पट होते.

हा ट्रेंड अधिक कार्यक्षम AI कडे निर्देश करतो, ज्यामुळे ऊर्जा आणि संगणकीय संसाधनांची मागणी कमी होते. एज कंप्यूटिंग आणि लोकल AI मॉडेलचा उदय अपेक्षित आहे, ज्यामुळे भविष्यकाळात AI सर्वत्र उपलब्ध होईल.

अतिरिक्त मुद्दे

संशोधन टीमने क्षमता घनतेच्या ट्रेंडचे विश्लेषण करण्यासाठी 29 मोठ्या प्रमाणात वापरल्या जाणाऱ्या ओपन-सोर्स मॉडेलचा वापर केला. अभ्यासात असे दिसून आले आहे की मॉडेल क्षमता घनता वाढवण्यासाठी केवळ मॉडेल कॉम्प्रेशन अल्गोरिदमवर अवलंबून राहणे पुरेसे नाही.

संशोधन पेपर येथे उपलब्ध आहे: Densing Law of LLMs

हा लेख मोठ्या भाषिक मॉडेलच्या भविष्यातील विकासावर आणि कार्यक्षमतेवर आधारित आहे.