Published on

एआय प्रशिक्षणासाठी डेटाची कमतरता: मस्क यांचे मत

लेखक
  • avatar
    नाव
    Ajax
    Twitter

कृत्रिम बुद्धिमत्ता प्रशिक्षण डेटाची समाप्ती: मस्क यांचे विचार

एलॉन मस्क आणि अनेक कृत्रिम बुद्धिमत्ता (AI) तज्ञांचे एकमत आहे की, AI मॉडेलला प्रशिक्षित करण्यासाठी आवश्यक असलेला वास्तविक जगातील डेटा आता कमी होत चालला आहे. स्टॅगवेलचे अध्यक्ष मार्क पेन यांच्यासोबत झालेल्या एका लाइव्ह चर्चेत मस्क यांनी सांगितले की, मानवी ज्ञानाचा साठा AI प्रशिक्षणासाठी जवळपास संपलेला आहे आणि हे गेल्या वर्षीच घडले आहे.

मस्क, जे xAI या AI कंपनीचे प्रमुख आहेत, यांनी ओपनएआयचे माजी मुख्य वैज्ञानिक इलिया सुटस्केव्हर यांच्या ‘न्यूरल इन्फॉर्मेशन प्रोसेसिंग सिस्टम्स’ (NeurIPS) मशीन लर्निंग परिषदेतील मताला दुजोरा दिला आहे. सुटस्केव्हर यांचेही म्हणणे आहे की, AI उद्योग 'डेटा पीक' पर्यंत पोहोचला आहे आणि प्रशिक्षण डेटाच्या कमतरतेमुळे मॉडेल विकासाच्या पद्धतीमध्ये मूलभूत बदल करावे लागतील.

सिंथेटिक डेटा: कृत्रिम बुद्धिमत्तेचा भविष्यकाळ

मस्क यांच्या मते, सिंथेटिक डेटा, म्हणजे AI मॉडेलद्वारे तयार केलेला डेटा, हा सध्याच्या डेटाच्या कमतरतेवर मात करण्याचा महत्त्वाचा उपाय आहे. ते म्हणतात की, वास्तविक जगातील डेटाला प्रभावीपणे पूरक ठरवणारा एकमेव मार्ग म्हणजे AI चा वापर करून प्रशिक्षण डेटा तयार करणे. सिंथेटिक डेटाच्या मदतीने AI स्वतःचे मूल्यांकन करू शकेल आणि स्वतः शिकू शकेल.

सध्या, मायक्रोसॉफ्ट, मेटा, ओपनएआय आणि अँथ्रोपिक यांसारख्या मोठ्या तंत्रज्ञान कंपन्यांनी त्यांच्या प्रमुख AI मॉडेलला प्रशिक्षित करण्यासाठी सिंथेटिक डेटाचा वापर सुरू केला आहे. गार्टनरच्या अंदाजानुसार, 2024 पर्यंत AI आणि विश्लेषण प्रकल्पांसाठी वापरल्या जाणाऱ्या डेटामध्ये 60% डेटा सिंथेटिक असेल.

  • मायक्रोसॉफ्टचे Phi-4: हे ओपन-सोर्स मॉडेल सिंथेटिक आणि वास्तविक जगातील डेटा वापरून प्रशिक्षित केले आहे.
  • गुगलचे जेम्मा मॉडेल: हे मॉडेल देखील मिश्र डेटा प्रशिक्षण पद्धतीचा वापर करते.
  • अँथ्रोपिकचे क्लाउड 3.5 सॉनेट: हे शक्तिशाली मॉडेल देखील काही प्रमाणात सिंथेटिक डेटा वापरते.
  • मेटाचे लामा मालिकेतील मॉडेल: हे AI द्वारे तयार केलेल्या डेटाचा वापर करून अधिक चांगले बनवले गेले आहे.

सिंथेटिक डेटाचे फायदे आणि आव्हान

डेटाची कमतरता दूर करण्यासोबतच, सिंथेटिक डेटा खर्चाच्या दृष्टीनेही खूप फायदेशीर आहे. उदाहरणार्थ, AI स्टार्टअप कंपनी रायटरने सांगितले की, त्यांचे पाल्मिरा एक्स 004 मॉडेल पूर्णपणे सिंथेटिक डेटावर आधारित आहे आणि ते विकसित करण्यासाठी फक्त 70 लाख डॉलर्स खर्च आला, जो ओपनएआयच्या मॉडेलच्या तुलनेत खूपच कमी आहे. ओपनएआयच्या मॉडेलसाठी 460 लाख डॉलर्स खर्च अपेक्षित होता.

परंतु, सिंथेटिक डेटा पूर्णपणे निर्दोष नाही. संशोधनात असे दिसून आले आहे की, सिंथेटिक डेटा मॉडेलची कार्यक्षमता कमी करू शकतो, ज्यामुळे त्याची निर्मिती क्षमता कमी होते आणि पूर्वग्रह वाढू शकतात, ज्यामुळे मॉडेलच्या कार्यावर गंभीर परिणाम होऊ शकतो. कारण, जर मॉडेलला प्रशिक्षित करण्यासाठी वापरलेला डेटा पूर्वग्रहदूषित असेल, तर मॉडेलद्वारे तयार केलेला सिंथेटिक डेटा देखील त्याच समस्यांना पुढे नेतो.

सिंथेटिक डेटा वापरण्याचे अनेक फायदे आहेत, पण काही आव्हानं देखील आहेत. त्यामुळे, या तंत्रज्ञानाचा वापर करताना काळजी घेणे आवश्यक आहे.

सिंथेटिक डेटाचे फायदे

  • डेटाची उपलब्धता: सिंथेटिक डेटाच्या मदतीने डेटाची कमतरता दूर करता येते.
  • कमी खर्चिक: वास्तविक डेटाच्या तुलनेत सिंथेटिक डेटा तयार करणे स्वस्त आहे.
  • लवचिक: गरजेनुसार सिंथेटिक डेटा तयार करता येतो.
  • सुरक्षितता: संवेदनशील माहितीसाठी सिंथेटिक डेटा वापरणे सुरक्षित आहे.

सिंथेटिक डेटाची आव्हानं

  • कार्यक्षमतेत घट: सिंथेटिक डेटा वापरल्याने मॉडेलची कार्यक्षमता कमी होऊ शकते.
  • निर्मितीक्षमतेचा अभाव: सिंथेटिक डेटा वापरल्याने मॉडेलची निर्मिती क्षमता कमी होऊ शकते.
  • पूर्वग्रह: सिंथेटिक डेटा पूर्वग्रहदूषित असू शकतो, ज्यामुळे मॉडेलमध्येही पूर्वग्रह येऊ शकतात.
  • गुणवत्ता: सिंथेटिक डेटाची गुणवत्ता सुनिश्चित करणे आवश्यक आहे.

सिंथेटिक डेटा हे कृत्रिम बुद्धिमत्तेच्या भविष्यासाठी महत्त्वाचे असले तरी, त्याचा वापर करताना काळजी घेणे आवश्यक आहे. डेटाची गुणवत्ता आणि मॉडेलची कार्यक्षमता यावर लक्ष ठेवणे आवश्यक आहे.