- Published on
स्टॅनफोर्ड आणि यूसी बर्कले अभ्यास चॅटजीपीटी कार्यक्षमतेत घट
चॅटजीपीटीच्या कार्यक्षमतेतील घट: स्टॅनफोर्ड आणि यूसी बर्कलेचा अभ्यास
स्टॅनफोर्ड विद्यापीठ आणि कॅलिफोर्निया विद्यापीठ, बर्कले येथील संशोधकांनी 'चॅटजीपीटी बिहेवियर ओव्हर टाइम' नावाचा एक शोधनिबंध हार्वर्ड डेटा सायन्स रिव्ह्यूमध्ये प्रकाशित केला आहे. या शोधनिबंधात GPT-3.5 आणि GPT-4 च्या कार्यक्षमतेत तीन महिन्यांच्या कालावधीत लक्षणीय बदल दिसून आले आहेत. या अभ्यासात गणितीय समस्या सोडवणे, कोड जनरेशन, मल्टी-हॉप नॉलेज-इंटेंसिव्ह प्रश्न विचारणे, यूएस मेडिकल लायसन्सिंग परीक्षा आणि मल्टी-हॉप नॉलेज-इंटेंसिव्ह प्रश्न विचारणे यांसारख्या सात कामांचा समावेश होता.
कार्यक्षमतेतील चढ-उतार
संशोधनात असे दिसून आले की GPT-3.5 आणि GPT-4 या दोन्ही मॉडेल्सच्या कार्यक्षमतेत तीन महिन्यांत मोठे बदल झाले. विशेषतः, GPT-4 ची मूळ आणि संयुक्त संख्या ओळखण्याची अचूकता मार्चमध्ये 84% होती, जी जूनमध्ये 51% पर्यंत खाली आली. याचे कारण 'चेन ऑफ थॉट' प्रॉम्प्ट्सचे पालन करण्याची क्षमता कमी होणे हे होते. आश्चर्याची गोष्ट म्हणजे, GPT-3.5 ने याच कालावधीत या विशिष्ट कामात सुधारणा दर्शविली.
इतर महत्त्वाचे बदल:
- जूनमध्ये संवेदनशील प्रश्नांची आणि मत सर्वेक्षण प्रश्नांची उत्तरे देण्याची GPT-4 ची तयारी कमी झाली.
- GPT-4 ची मल्टी-स्टेप रिझनिंग समस्या सोडवण्याची क्षमता सुधारली, तर GPT-3.5 ची या कामांमध्ये घट झाली.
- दोन्ही मॉडेल्समध्ये कोड जनरेशनमध्ये फॉरमॅटिंगच्या चुका वाढल्या.
- GPT-4 मध्ये वापरकर्त्याच्या सूचनांचे पालन करण्याची क्षमता घटली.
मूल्यांकन पद्धती
संशोधकांनी GPT-3.5 आणि GPT-4 चे मूल्यांकन विविधता आणि प्रतिनिधित्वाच्या तत्त्वांवर आधारित केले. चाचण्या सात प्रमुख क्षेत्रांमध्ये घेण्यात आल्या:
- गणितीय समस्या
- संवेदनशील/धोकादायक मुद्दे
- मत सर्वेक्षण
- मल्टी-हॉप नॉलेज-इंटेंसिव्ह प्रश्न
- कोड जनरेशन
- यूएस मेडिकल लायसन्सिंग परीक्षा
- व्हिज्युअल रिझनिंग
वर्तणुकीतील बदल अधिक चांगल्या प्रकारे समजून घेण्यासाठी, टीमने एक नवीन बेंचमार्क विकसित केला, जो कार्य-स्वतंत्र सूचनांच्या पालनावर केंद्रित होता. या बेंचमार्क मध्ये चार प्रकारच्या सामान्य सूचनांचा समावेश होता:
- उत्तर काढणे
- माफी मागणे थांबवणे
- विशिष्ट शब्द टाळणे
- सामग्री फिल्टर करणे
सूचनांचे पालन
या चाचण्या मॉडेलची विशिष्ट कौशल्ये किंवा ज्ञान विचारात न घेता, सूचनांचे पालन करण्याची क्षमता तपासण्यासाठी तयार केल्या होत्या. मार्चमध्ये, GPT-4 बहुतेक वैयक्तिक सूचनांचे पालन करण्यास सक्षम होते, परंतु जूनमध्ये त्यांनी त्याकडे दुर्लक्ष करण्यास सुरुवात केली. उदाहरणार्थ, उत्तर काढण्याच्या सूचनांचे पालन करण्याचे प्रमाण 99.5% वरून जवळपास शून्यावर आले. तसेच, सामग्री फिल्टरिंगच्या सूचनांचे पालन 74.0% वरून 19.0% पर्यंत खाली आले.
कार्यक्षमतेचे मापदंड
मॉडेलची कार्यक्षमता अचूकपणे मोजण्यासाठी, टीमने प्रत्येक कामासाठी प्राथमिक आणि पूरक कार्यक्षमतेचे मापदंड स्थापित केले. उदाहरणार्थ:
- गणितीय समस्या आणि USMLE साठी अचूकता प्राथमिक मापदंड म्हणून वापरली गेली.
- कोड जनरेशनसाठी एक्झिक्युटेबल आउटपुट कोडचे प्रमाण प्राथमिक मापदंड होते.
चार प्रकारच्या सूचनांमध्ये चॅटजीपीटीची कार्यक्षमता
उत्तर काढणे
या सूचनेमध्ये मॉडेलने दिलेल्या मजकूर किंवा प्रश्नातून अचूकपणे उत्तर शोधणे आणि ते स्पष्टपणे ओळखणे आवश्यक आहे. GPT-4 ने मार्चमध्ये या प्रकारच्या सूचनेचे उच्च प्रमाणात पालन केले, जवळजवळ 99.5% प्रश्नांची उत्तरे योग्य स्वरूपात दिली. तथापि, जूनपर्यंत हे प्रमाण घटले, ज्यामुळे मॉडेलची स्पष्ट सूचना हाताळण्याची क्षमता कमी झाल्याचे दिसून आले.
माफी मागणे थांबवणे
या निर्देशात मॉडेलला माफी मागणे किंवा स्वतःला एआय म्हणून ओळखणे टाळण्यास सांगितले जाते. मार्चमध्ये, GPT-4 ने सामान्यतः या सूचनेचे पालन केले, परंतु जूनमध्ये, विशेष सूचना देऊनही, त्याचे वारंवार उल्लंघन केले.
विशिष्ट शब्द टाळणे
ही सूचना मॉडेलची लवचिकता आणि तपशीलाकडे लक्ष देण्याची क्षमता तपासते, विशेषत: विशिष्ट मर्यादांचे पालन करणे. मार्च ते जून या काळात घट दर्शवते की GPT-4 ची जटिल सूचना हाताळण्याची क्षमता कमी झाली आहे.
सामग्री फिल्टर करणे
या सूचनेमध्ये मॉडेलला विशिष्ट विषय किंवा संवेदनशील माहिती वगळणे आवश्यक आहे. मार्चमध्ये, GPT-4 ने मोठ्या प्रमाणात या फिल्टरिंग आवश्यकतांचे पालन केले, परंतु जूनपर्यंत, त्याची फिल्टर करण्याची क्षमता लक्षणीयरीत्या घटली, केवळ 19% संवेदनशील समस्या योग्यरित्या हाताळल्या गेल्या.
संशोधनाचे परिणाम
संशोधकांनी नमूद केले की GPT-3.5 आणि GPT-4 हे क्लोज्ड-सोर्स मॉडेल असल्यामुळे, OpenAI त्यांचे प्रशिक्षण डेटा आणि प्रक्रिया उघड करत नाही. या अपारदर्शकतेमुळे, प्रत्येक मोठ्या अपडेटमध्ये होणारे बदल वापरकर्त्यांना अनेकदा माहीत नसतात. हे संशोधन डेव्हलपर्स आणि वापरकर्त्यांना चॅटजीपीटीची कार्यक्षमता आणि वर्तणूक समजून घेण्यास मदत करू शकते, जे मॉडेलची सुरक्षा आणि सामग्रीची सत्यता सुनिश्चित करण्यासाठी महत्त्वाचे आहे. हे संशोधन मॉडेलची सातत्यता आणि विश्वासार्हता राखण्याच्या आव्हानांवर प्रकाश टाकते, विशेषतः वेगाने बदलणाऱ्या वातावरणात.