Published on

OpenAI मॉडेल पॅरामीटर्स लीक: मायक्रोसॉफ्ट पेपरमध्ये GPT4o चा आकार उघड

लेखक
  • avatar
    नाव
    Ajax
    Twitter

तंत्रज्ञान जगात, मोठ्या भाषिक मॉडेल्स (LLM) च्या पॅरामीटर आकाराबद्दलची माहिती नेहमीच गुप्त ठेवली जाते. मात्र, मायक्रोसॉफ्ट आणि वॉशिंग्टन विद्यापीठाच्या टीमने एकत्रितपणे प्रकाशित केलेल्या एका वैद्यकीय पेपरमध्ये OpenAI च्या अनेक मॉडेल्सच्या पॅरामीटरची माहिती अनपेक्षितपणे समोर आली आहे, ज्यामुळे एकच खळबळ उडाली आहे.

पॅरामीटर्सचा खुलासा

या पेपरमध्ये खालील माहिती उघड झाली आहे:

  • GPT-4: सुमारे 1.76 ट्रिलियन पॅरामीटर्स
  • GPT-4o: सुमारे 200 अब्ज पॅरामीटर्स
  • GPT-4o mini: सुमारे 8 अब्ज पॅरामीटर्स
  • o1-preview: सुमारे 300 अब्ज पॅरामीटर्स
  • o1-mini: सुमारे 100 अब्ज पॅरामीटर्स
  • Claude 3.5 Sonnet: सुमारे 175 अब्ज पॅरामीटर्स

विशेष म्हणजे, संशोधकांनी हे पॅरामीटर्स केवळ अंदाजे आकडे असल्याचे स्पष्ट केले आहे.

GPT-4o सिरीजच्या पॅरामीटर्सवर चर्चा

GPT-4o सिरीजचे पॅरामीटर्स अपेक्षेपेक्षा खूपच कमी असल्याचे दिसून आले आहे, विशेषतः मिनी आवृत्तीमध्ये फक्त 8 अब्ज पॅरामीटर्स आहेत. यामुळे अनेक प्रश्न उपस्थित झाले आहेत.

  • काही तज्ञांच्या मते, GPT-4o मिनी मध्ये मिक्सचर ऑफ एक्सपर्ट्स (MoE) आर्किटेक्चरचा वापर केला गेला असण्याची शक्यता आहे.
  • या आर्किटेक्चरमध्ये, मॉडेलचे एकूण पॅरामीटर्स 400 अब्जांपर्यंत असू शकतात, परंतु एका वेळी फक्त 8 अब्ज पॅरामीटर्स ऍक्टिव्ह असतील.
  • हे लहान मॉडेल अधिक ज्ञान आत्मसात करण्यास आणि जलद गतीने कार्य करण्यास मदत करते.

Claude 3.5 Sonnet पॅरामीटर तुलना

Claude 3.5 Sonnet चे पॅरामीटर्स GPT-3 davinci प्रमाणेच आहेत, ज्यामुळे मॉडेलची कार्यक्षमता आणि आकार यांच्यातील संबंधावर नवीन विचार करण्यास वाव मिळतो.

MEDEC बेंचमार्क: वैद्यकीय त्रुटी शोधण्याचे नवीन मापदंड

पॅरामीटर्स उघड करणारा हा पेपर, खरं तर MEDEC नावाच्या एका नवीन बेंचमार्कबद्दल आहे. हा बेंचमार्क मोठ्या भाषिक मॉडेल्सच्या (LLM) वैद्यकीय त्रुटी शोधण्याच्या आणि सुधारण्याच्या क्षमतेचे मूल्यांकन करण्यासाठी तयार करण्यात आला आहे.

  • हा बेंचमार्क वैद्यकीय नोंदींमधील त्रुटींवर लक्ष केंद्रित करतो.
  • यात निदान, व्यवस्थापन, उपचार, औषधोपचार आणि रोगकारक घटक यांसारख्या पाच क्षेत्रांचा समावेश आहे.

डेटा स्त्रोत आणि वैशिष्ट्ये

MEDEC डेटासेटमध्ये अमेरिकेतील तीन हॉस्पिटल सिस्टीममधील 488 क्लिनिकल नोट्स आहेत, ज्यात एकूण 3848 क्लिनिकल टेक्स्ट्सचा समावेश आहे.

  • हा डेटा यापूर्वी कोणत्याही मोठ्या भाषिक मॉडेलने पाहिला नव्हता, त्यामुळे मूल्यांकनाची सत्यता आणि विश्वासार्हता सुनिश्चित होते.
  • सध्या, हा डेटासेट 17 सहभागी प्रणालींच्या कामगिरीचे मूल्यांकन करण्यासाठी MEDIQA-CORR शेअरिंग टास्कमध्ये वापरला जात आहे.

चाचणी आणि निष्कर्ष

संशोधकांनी o1-preview, GPT-4, Claude 3.5 Sonnet आणि Gemini 2.0 Flash यांसारख्या अनेक प्रगत मॉडेल्सची MEDEC डेटासेट वापरून चाचणी केली.

  • यासोबतच, त्यांनी दोन तज्ञ डॉक्टरांनाही या त्रुटी शोधण्याच्या कामात सहभागी केले, ज्यामुळे मानवी आणि मशीनच्या कामगिरीची तुलना करता आली.
  • निष्कर्षानुसार, मोठ्या भाषिक मॉडेल्स वैद्यकीय त्रुटी शोधण्यात आणि सुधारण्यात चांगले काम करत असले तरी, मानवी डॉक्टरांपेक्षा त्यांची क्षमता अजूनही कमी आहे.

यावरून MEDEC एक आव्हानात्मक मूल्यांकन बेंचमार्क असल्याचे सिद्ध होते.

पेपरचा मुख्य भाग: वैद्यकीय क्षेत्रात LLM चा वापर आणि आव्हान

पेपरमध्ये असे नमूद केले आहे की, अमेरिकेतील वैद्यकीय संस्थांच्या सर्वेक्षणानुसार, प्रत्येक पाच रुग्णांपैकी एकाने त्यांच्या वैद्यकीय नोंदीमध्ये त्रुटी आढळल्याची तक्रार केली आहे.

  • या त्रुटींपैकी 40% त्रुटी गंभीर स्वरूपाच्या होत्या आणि त्यामध्ये सर्वात जास्त त्रुटी निदानाशी संबंधित होत्या.

वैद्यकीय कागदपत्रांमध्ये LLM चा वापर आणि धोका

वैद्यकीय कागदपत्रांचे काम (उदा. क्लिनिकल नोट्स तयार करणे) मोठ्या भाषिक मॉडेलद्वारे केले जात असल्यामुळे, LLM द्वारे दिली जाणारी माहिती अचूक आणि सुरक्षित असणे अत्यंत आवश्यक आहे.

  • LLM चुकीची किंवा काल्पनिक माहिती देऊ शकतात, ज्यामुळे वैद्यकीय निर्णयांवर गंभीर परिणाम होऊ शकतात.
  • यामुळे, वैद्यकीय क्षेत्रात LLM चा वापर करताना अत्यंत काळजी घेणे आवश्यक आहे.

MEDEC बेंचमार्कचे महत्त्व

या समस्यांचे निराकरण करण्यासाठी आणि वैद्यकीय सामग्री निर्मितीमध्ये LLM ची सुरक्षितता सुनिश्चित करण्यासाठी, कठोर पडताळणी पद्धती आवश्यक आहेत.

  • MEDEC बेंचमार्क मॉडेलची वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची क्षमता तपासण्यासाठी तयार करण्यात आला आहे.

MEDEC डेटासेटची रचना

MEDEC डेटासेटमध्ये विविध वैद्यकीय क्षेत्रांतील 3848 क्लिनिकल टेक्स्ट्स आहेत, ज्यांचे 8 वैद्यकीय तज्ञांनी परीक्षण केले आहे.

  • या डेटासेटमध्ये पाच प्रकारच्या त्रुटींचा समावेश आहे:
    • निदान (Diagnosis): दिलेले निदान अचूक नसणे.
    • व्यवस्थापन (Management): व्यवस्थापनासाठी पुढील उपाययोजना अचूक नसणे.
    • औषधोपचार (Pharmacotherapy): औषधोपचारासाठी दिलेली शिफारस अचूक नसणे.
    • उपचार (Treatment): उपचारासाठी दिलेली योजना अचूक नसणे.
    • रोगकारक घटक (Causal Organism): रोगाचे कारण असलेले जीव किंवा रोगजनक अचूकपणे न सांगणे.

या त्रुटींचे प्रकार वैद्यकीय परीक्षांमध्ये विचारल्या जाणाऱ्या प्रश्नांवर आधारित आहेत.

डेटा निर्मितीची पद्धत

डेटासेट दोन पद्धती वापरून तयार करण्यात आला आहे:

  1. पद्धत #1 (MS): MedQA मधील वैद्यकीय परीक्षा प्रश्नांचा वापर करून, वैद्यकीय पार्श्वभूमी असलेल्या तज्ञांनी त्रुटीपूर्ण उत्तरे तयार केली.
  2. पद्धत #2 (UW): वॉशिंग्टन विद्यापीठाच्या तीन हॉस्पिटल सिस्टीममधील वास्तविक क्लिनिकल नोट्स वापरून, वैद्यकीय विद्यार्थ्यांनी नोंदींमध्ये त्रुटी दाखल केल्या.

या दोन्ही पद्धतींमध्ये डेटाची अचूकता आणि विश्वासार्हता सुनिश्चित करण्यासाठी कठोर गुणवत्ता नियंत्रण ठेवण्यात आले होते.

वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची पद्धत

मॉडेलची वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची क्षमता तपासण्यासाठी, संशोधकांनी या प्रक्रियेला तीन उप-कार्यांमध्ये विभागले आहे:

  • उप-कार्य A: त्रुटीचा अंदाज लावणे (0: त्रुटी नाही; 1: त्रुटी आहे).
  • उप-कार्य B: त्रुटी असलेले वाक्य शोधणे.
  • उप-कार्य C: त्रुटी असलेल्या वाक्यासाठी सुधारित मजकूर तयार करणे.

संशोधकांनी LLM वर आधारित उपाय तयार केले आणि आवश्यक आउटपुट तयार करण्यासाठी दोन वेगवेगळ्या प्रॉम्प्टचा वापर केला.

प्रयोग आणि निष्कर्ष

भाषिक मॉडेल

संशोधकांनी Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini आणि o1-preview यांसारख्या अनेक भाषिक मॉडेल्सवर प्रयोग केले.

प्रयोगाचे विश्लेषण

प्रयोगांमध्ये असे दिसून आले की, Claude 3.5 Sonnet ने त्रुटी ओळखणे आणि त्रुटी असलेले वाक्य शोधण्यात उत्कृष्ट कामगिरी केली.

  • o1-preview ने त्रुटी सुधारण्यात सर्वोत्तम कामगिरी केली.
  • तरीही, सर्व मॉडेल्स मानवी डॉक्टरांपेक्षा वैद्यकीय त्रुटी शोधण्यात आणि सुधारण्यात कमी पडले.

याव्यतिरिक्त, मॉडेल्स अचूकतेमध्ये कमी पडले आणि अनेक प्रकरणांमध्ये त्यांनी जास्त त्रुटींचा अंदाज लावला, म्हणजेच 'भ्रम' निर्माण झाला.

त्रुटी प्रकार विश्लेषण

विविध त्रुटी प्रकारांच्या तपासणीत आणि सुधारणेमध्ये, o1-preview ने त्रुटी शोधण्यात अधिक चांगली कामगिरी केली, परंतु अचूकतेमध्ये डॉक्टर अधिक चांगले ठरले.

पुढील संशोधन

संशोधकांनी सांगितले की, पुढील संशोधनात अधिक उदाहरणे वापरून आणि प्रॉम्प्ट्समध्ये सुधारणा करून, मॉडेल्सची वैद्यकीय त्रुटी शोधण्याची आणि सुधारण्याची क्षमता वाढवण्यावर लक्ष केंद्रित केले जाईल.