- Published on
OpenAI मॉडेल पॅरामीटर्स लीक: मायक्रोसॉफ्ट पेपरमध्ये GPT4o चा आकार उघड
तंत्रज्ञान जगात, मोठ्या भाषिक मॉडेल्स (LLM) च्या पॅरामीटर आकाराबद्दलची माहिती नेहमीच गुप्त ठेवली जाते. मात्र, मायक्रोसॉफ्ट आणि वॉशिंग्टन विद्यापीठाच्या टीमने एकत्रितपणे प्रकाशित केलेल्या एका वैद्यकीय पेपरमध्ये OpenAI च्या अनेक मॉडेल्सच्या पॅरामीटरची माहिती अनपेक्षितपणे समोर आली आहे, ज्यामुळे एकच खळबळ उडाली आहे.
पॅरामीटर्सचा खुलासा
या पेपरमध्ये खालील माहिती उघड झाली आहे:
- GPT-4: सुमारे 1.76 ट्रिलियन पॅरामीटर्स
- GPT-4o: सुमारे 200 अब्ज पॅरामीटर्स
- GPT-4o mini: सुमारे 8 अब्ज पॅरामीटर्स
- o1-preview: सुमारे 300 अब्ज पॅरामीटर्स
- o1-mini: सुमारे 100 अब्ज पॅरामीटर्स
- Claude 3.5 Sonnet: सुमारे 175 अब्ज पॅरामीटर्स
विशेष म्हणजे, संशोधकांनी हे पॅरामीटर्स केवळ अंदाजे आकडे असल्याचे स्पष्ट केले आहे.
GPT-4o सिरीजच्या पॅरामीटर्सवर चर्चा
GPT-4o सिरीजचे पॅरामीटर्स अपेक्षेपेक्षा खूपच कमी असल्याचे दिसून आले आहे, विशेषतः मिनी आवृत्तीमध्ये फक्त 8 अब्ज पॅरामीटर्स आहेत. यामुळे अनेक प्रश्न उपस्थित झाले आहेत.
- काही तज्ञांच्या मते, GPT-4o मिनी मध्ये मिक्सचर ऑफ एक्सपर्ट्स (MoE) आर्किटेक्चरचा वापर केला गेला असण्याची शक्यता आहे.
- या आर्किटेक्चरमध्ये, मॉडेलचे एकूण पॅरामीटर्स 400 अब्जांपर्यंत असू शकतात, परंतु एका वेळी फक्त 8 अब्ज पॅरामीटर्स ऍक्टिव्ह असतील.
- हे लहान मॉडेल अधिक ज्ञान आत्मसात करण्यास आणि जलद गतीने कार्य करण्यास मदत करते.
Claude 3.5 Sonnet पॅरामीटर तुलना
Claude 3.5 Sonnet चे पॅरामीटर्स GPT-3 davinci प्रमाणेच आहेत, ज्यामुळे मॉडेलची कार्यक्षमता आणि आकार यांच्यातील संबंधावर नवीन विचार करण्यास वाव मिळतो.
MEDEC बेंचमार्क: वैद्यकीय त्रुटी शोधण्याचे नवीन मापदंड
पॅरामीटर्स उघड करणारा हा पेपर, खरं तर MEDEC नावाच्या एका नवीन बेंचमार्कबद्दल आहे. हा बेंचमार्क मोठ्या भाषिक मॉडेल्सच्या (LLM) वैद्यकीय त्रुटी शोधण्याच्या आणि सुधारण्याच्या क्षमतेचे मूल्यांकन करण्यासाठी तयार करण्यात आला आहे.
- हा बेंचमार्क वैद्यकीय नोंदींमधील त्रुटींवर लक्ष केंद्रित करतो.
- यात निदान, व्यवस्थापन, उपचार, औषधोपचार आणि रोगकारक घटक यांसारख्या पाच क्षेत्रांचा समावेश आहे.
डेटा स्त्रोत आणि वैशिष्ट्ये
MEDEC डेटासेटमध्ये अमेरिकेतील तीन हॉस्पिटल सिस्टीममधील 488 क्लिनिकल नोट्स आहेत, ज्यात एकूण 3848 क्लिनिकल टेक्स्ट्सचा समावेश आहे.
- हा डेटा यापूर्वी कोणत्याही मोठ्या भाषिक मॉडेलने पाहिला नव्हता, त्यामुळे मूल्यांकनाची सत्यता आणि विश्वासार्हता सुनिश्चित होते.
- सध्या, हा डेटासेट 17 सहभागी प्रणालींच्या कामगिरीचे मूल्यांकन करण्यासाठी MEDIQA-CORR शेअरिंग टास्कमध्ये वापरला जात आहे.
चाचणी आणि निष्कर्ष
संशोधकांनी o1-preview, GPT-4, Claude 3.5 Sonnet आणि Gemini 2.0 Flash यांसारख्या अनेक प्रगत मॉडेल्सची MEDEC डेटासेट वापरून चाचणी केली.
- यासोबतच, त्यांनी दोन तज्ञ डॉक्टरांनाही या त्रुटी शोधण्याच्या कामात सहभागी केले, ज्यामुळे मानवी आणि मशीनच्या कामगिरीची तुलना करता आली.
- निष्कर्षानुसार, मोठ्या भाषिक मॉडेल्स वैद्यकीय त्रुटी शोधण्यात आणि सुधारण्यात चांगले काम करत असले तरी, मानवी डॉक्टरांपेक्षा त्यांची क्षमता अजूनही कमी आहे.
यावरून MEDEC एक आव्हानात्मक मूल्यांकन बेंचमार्क असल्याचे सिद्ध होते.
पेपरचा मुख्य भाग: वैद्यकीय क्षेत्रात LLM चा वापर आणि आव्हान
पेपरमध्ये असे नमूद केले आहे की, अमेरिकेतील वैद्यकीय संस्थांच्या सर्वेक्षणानुसार, प्रत्येक पाच रुग्णांपैकी एकाने त्यांच्या वैद्यकीय नोंदीमध्ये त्रुटी आढळल्याची तक्रार केली आहे.
- या त्रुटींपैकी 40% त्रुटी गंभीर स्वरूपाच्या होत्या आणि त्यामध्ये सर्वात जास्त त्रुटी निदानाशी संबंधित होत्या.
वैद्यकीय कागदपत्रांमध्ये LLM चा वापर आणि धोका
वैद्यकीय कागदपत्रांचे काम (उदा. क्लिनिकल नोट्स तयार करणे) मोठ्या भाषिक मॉडेलद्वारे केले जात असल्यामुळे, LLM द्वारे दिली जाणारी माहिती अचूक आणि सुरक्षित असणे अत्यंत आवश्यक आहे.
- LLM चुकीची किंवा काल्पनिक माहिती देऊ शकतात, ज्यामुळे वैद्यकीय निर्णयांवर गंभीर परिणाम होऊ शकतात.
- यामुळे, वैद्यकीय क्षेत्रात LLM चा वापर करताना अत्यंत काळजी घेणे आवश्यक आहे.
MEDEC बेंचमार्कचे महत्त्व
या समस्यांचे निराकरण करण्यासाठी आणि वैद्यकीय सामग्री निर्मितीमध्ये LLM ची सुरक्षितता सुनिश्चित करण्यासाठी, कठोर पडताळणी पद्धती आवश्यक आहेत.
- MEDEC बेंचमार्क मॉडेलची वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची क्षमता तपासण्यासाठी तयार करण्यात आला आहे.
MEDEC डेटासेटची रचना
MEDEC डेटासेटमध्ये विविध वैद्यकीय क्षेत्रांतील 3848 क्लिनिकल टेक्स्ट्स आहेत, ज्यांचे 8 वैद्यकीय तज्ञांनी परीक्षण केले आहे.
- या डेटासेटमध्ये पाच प्रकारच्या त्रुटींचा समावेश आहे:
- निदान (Diagnosis): दिलेले निदान अचूक नसणे.
- व्यवस्थापन (Management): व्यवस्थापनासाठी पुढील उपाययोजना अचूक नसणे.
- औषधोपचार (Pharmacotherapy): औषधोपचारासाठी दिलेली शिफारस अचूक नसणे.
- उपचार (Treatment): उपचारासाठी दिलेली योजना अचूक नसणे.
- रोगकारक घटक (Causal Organism): रोगाचे कारण असलेले जीव किंवा रोगजनक अचूकपणे न सांगणे.
या त्रुटींचे प्रकार वैद्यकीय परीक्षांमध्ये विचारल्या जाणाऱ्या प्रश्नांवर आधारित आहेत.
डेटा निर्मितीची पद्धत
डेटासेट दोन पद्धती वापरून तयार करण्यात आला आहे:
- पद्धत #1 (MS): MedQA मधील वैद्यकीय परीक्षा प्रश्नांचा वापर करून, वैद्यकीय पार्श्वभूमी असलेल्या तज्ञांनी त्रुटीपूर्ण उत्तरे तयार केली.
- पद्धत #2 (UW): वॉशिंग्टन विद्यापीठाच्या तीन हॉस्पिटल सिस्टीममधील वास्तविक क्लिनिकल नोट्स वापरून, वैद्यकीय विद्यार्थ्यांनी नोंदींमध्ये त्रुटी दाखल केल्या.
या दोन्ही पद्धतींमध्ये डेटाची अचूकता आणि विश्वासार्हता सुनिश्चित करण्यासाठी कठोर गुणवत्ता नियंत्रण ठेवण्यात आले होते.
वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची पद्धत
मॉडेलची वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची क्षमता तपासण्यासाठी, संशोधकांनी या प्रक्रियेला तीन उप-कार्यांमध्ये विभागले आहे:
- उप-कार्य A: त्रुटीचा अंदाज लावणे (0: त्रुटी नाही; 1: त्रुटी आहे).
- उप-कार्य B: त्रुटी असलेले वाक्य शोधणे.
- उप-कार्य C: त्रुटी असलेल्या वाक्यासाठी सुधारित मजकूर तयार करणे.
संशोधकांनी LLM वर आधारित उपाय तयार केले आणि आवश्यक आउटपुट तयार करण्यासाठी दोन वेगवेगळ्या प्रॉम्प्टचा वापर केला.
प्रयोग आणि निष्कर्ष
भाषिक मॉडेल
संशोधकांनी Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini आणि o1-preview यांसारख्या अनेक भाषिक मॉडेल्सवर प्रयोग केले.
प्रयोगाचे विश्लेषण
प्रयोगांमध्ये असे दिसून आले की, Claude 3.5 Sonnet ने त्रुटी ओळखणे आणि त्रुटी असलेले वाक्य शोधण्यात उत्कृष्ट कामगिरी केली.
- o1-preview ने त्रुटी सुधारण्यात सर्वोत्तम कामगिरी केली.
- तरीही, सर्व मॉडेल्स मानवी डॉक्टरांपेक्षा वैद्यकीय त्रुटी शोधण्यात आणि सुधारण्यात कमी पडले.
याव्यतिरिक्त, मॉडेल्स अचूकतेमध्ये कमी पडले आणि अनेक प्रकरणांमध्ये त्यांनी जास्त त्रुटींचा अंदाज लावला, म्हणजेच 'भ्रम' निर्माण झाला.
त्रुटी प्रकार विश्लेषण
विविध त्रुटी प्रकारांच्या तपासणीत आणि सुधारणेमध्ये, o1-preview ने त्रुटी शोधण्यात अधिक चांगली कामगिरी केली, परंतु अचूकतेमध्ये डॉक्टर अधिक चांगले ठरले.
पुढील संशोधन
संशोधकांनी सांगितले की, पुढील संशोधनात अधिक उदाहरणे वापरून आणि प्रॉम्प्ट्समध्ये सुधारणा करून, मॉडेल्सची वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची क्षमता वाढवण्यावर लक्ष केंद्रित केले जाईल.