- Published on
ओपनएआई मॉडल पैरामीटर लीक: माइक्रोसॉफ्ट पेपर ने GPT4o का आकार बताया
ओपनएआई मॉडल पैरामीटर लीक: माइक्रोसॉफ्ट पेपर ने GPT4o का आकार बताया
तकनीक की दुनिया में, बड़े भाषा मॉडल (LLM) के मापदंडों का आकार हमेशा से एक गुप्त रखा गया है। हालांकि, हाल ही में माइक्रोसॉफ्ट और वाशिंगटन विश्वविद्यालय की टीम द्वारा प्रकाशित एक चिकित्सा शोध पत्र में, अनजाने में OpenAI के कई मॉडलों के मापदंडों की जानकारी का खुलासा हो गया है, जिससे व्यापक ध्यान आकर्षित हुआ है।
पैरामीटर लीक
इस शोध पत्र में दी गई मुख्य जानकारी में शामिल हैं:
- GPT-4: लगभग 1.76 ट्रिलियन पैरामीटर
- GPT-4o: लगभग 200 बिलियन पैरामीटर
- GPT-4o mini: लगभग 8 बिलियन पैरामीटर
- o1-preview: लगभग 300 बिलियन पैरामीटर
- o1-mini: लगभग 100 बिलियन पैरामीटर
- Claude 3.5 Sonnet: लगभग 175 बिलियन पैरामीटर
यह ध्यान रखना महत्वपूर्ण है कि शोधकर्ताओं ने कहा है कि ये सभी पैरामीटर अनुमानित हैं।
GPT-4o श्रृंखला के पैरामीटर पर बहस
आश्चर्यजनक रूप से, GPT-4o श्रृंखला के पैरामीटर उम्मीद से काफी कम हैं, खासकर मिनी संस्करण में केवल 8 बिलियन पैरामीटर हैं। कुछ लोगों का मानना है कि GPT-4o मिनी एक मिक्सचर ऑफ़ एक्सपर्ट्स (MoE) आर्किटेक्चर का उपयोग कर सकता है, जिसमें 8 बिलियन पैरामीटर सक्रिय हैं, लेकिन मॉडल में कुल 400 बिलियन पैरामीटर हो सकते हैं। इस तरह का आर्किटेक्चर छोटे मॉडल को अधिक ज्ञान सीखने और चलाने की गति बनाए रखने में मदद करता है।
क्लाउड 3.5 सोनेट पैरामीटर तुलना
इसके अलावा, कुछ टिप्पणियों में कहा गया है कि क्लाउड 3.5 सोनेट के पैरामीटर GPT-3 davinci के बराबर हैं, जिससे विभिन्न मॉडलों के प्रदर्शन और आकार के बीच संबंध पर आगे विचार किया जा रहा है।
MEDEC बेंचमार्क: चिकित्सा त्रुटि का पता लगाने का नया मानक
यह शोध पत्र, जिसमें पैरामीटर लीक हुए हैं, वास्तव में MEDEC1 नामक एक मूल्यांकन बेंचमार्क के बारे में है, जिसका उद्देश्य चिकित्सा त्रुटि का पता लगाने और सुधारने के कार्यों में बड़े भाषा मॉडल के प्रदर्शन का मूल्यांकन करना है। यह बेंचमार्क नैदानिक नोटों में त्रुटियों पर केंद्रित है, जिसमें निदान, प्रबंधन, उपचार, दवा उपचार और प्रेरक एजेंट सहित पांच पहलू शामिल हैं।
डेटा स्रोत और विशेषताएँ
MEDEC डेटासेट में तीन अमेरिकी अस्पताल प्रणालियों से 488 नैदानिक नोट्स शामिल हैं, जिनमें कुल 3848 नैदानिक पाठ हैं। यह डेटा पहले किसी भी बड़े भाषा मॉडल द्वारा एक्सेस नहीं किया गया है, जिससे मूल्यांकन की प्रामाणिकता और विश्वसनीयता सुनिश्चित होती है। वर्तमान में, इस डेटासेट का उपयोग 17 भाग लेने वाली प्रणालियों के प्रदर्शन का मूल्यांकन करने के लिए MEDIQA-CORR साझा कार्य में किया गया है।
परीक्षण और परिणाम
शोध टीम ने MEDEC डेटासेट का उपयोग करके o1-preview, GPT-4, Claude 3.5 Sonnet और Gemini 2.0 Flash सहित कई उन्नत मॉडलों का परीक्षण किया। साथ ही, उन्होंने दो पेशेवर डॉक्टरों को भी समान त्रुटि का पता लगाने के कार्य में भाग लेने के लिए आमंत्रित किया, ताकि मानव और मशीन की तुलना की जा सके।
परिणामों से पता चला कि बड़े भाषा मॉडल चिकित्सा त्रुटि का पता लगाने और सुधारने में उत्कृष्ट प्रदर्शन करते हैं, लेकिन फिर भी मानव डॉक्टरों की तुलना में कुछ कम हैं। इससे पता चलता है कि MEDEC एक चुनौतीपूर्ण मूल्यांकन बेंचमार्क है।
शोध पत्र का मुख्य विषय: चिकित्सा क्षेत्र में LLM का अनुप्रयोग और चुनौतियाँ
शोध पत्र में कहा गया है कि अमेरिकी चिकित्सा संस्थानों के सर्वेक्षणों से पता चलता है कि नैदानिक नोटों को पढ़ने वाले प्रत्येक पांच रोगियों में से एक ने त्रुटि की सूचना दी है। इन त्रुटियों में से 40% को गंभीर माना जाता है, और सबसे आम त्रुटियां निदान से संबंधित हैं।
चिकित्सा दस्तावेजों में LLM का अनुप्रयोग और जोखिम
जैसे-जैसे अधिक से अधिक चिकित्सा दस्तावेज़ कार्य (जैसे नैदानिक नोट बनाना) बड़े भाषा मॉडल द्वारा किए जा रहे हैं, यह सुनिश्चित करना आवश्यक है कि LLM द्वारा आउटपुट की गई जानकारी सटीक और सुरक्षित हो। LLM भ्रम पैदा कर सकता है और गलत या काल्पनिक सामग्री का आउटपुट दे सकता है, जो नैदानिक निर्णय लेने पर गंभीर प्रभाव डाल सकता है।
MEDEC बेंचमार्क का महत्व
इन समस्याओं को हल करने और चिकित्सा सामग्री बनाने में LLM की सुरक्षा सुनिश्चित करने के लिए, सख्त सत्यापन विधियाँ आवश्यक हैं। MEDEC बेंचमार्क का परिचय नैदानिक पाठ में चिकित्सा त्रुटियों का पता लगाने और सुधारने में मॉडल की क्षमता का मूल्यांकन करना है।
MEDEC डेटासेट का निर्माण
MEDEC डेटासेट में विभिन्न चिकित्सा क्षेत्रों से 3848 नैदानिक पाठ शामिल हैं, जिन्हें 8 चिकित्सा एनोटेटरों द्वारा पूरा किया गया है। इस डेटासेट में पांच प्रकार की त्रुटियां शामिल हैं:
- निदान (Diagnosis): प्रदान किया गया निदान गलत है।
- प्रबंधन (Management): प्रदान की गई प्रबंधन की अगली कार्रवाई गलत है।
- दवा उपचार (Pharmacotherapy): अनुशंसित दवा उपचार गलत है।
- उपचार (Treatment): अनुशंसित उपचार योजना गलत है।
- कारण एजेंट (Causal Organism): इंगित किए गए प्रेरक जीव या रोगजनक गलत हैं।
इन त्रुटि प्रकारों का चयन चिकित्सा बोर्ड परीक्षाओं में सबसे आम प्रश्नों के प्रकारों पर आधारित है।
डेटा निर्माण विधियाँ
डेटासेट का निर्माण दो तरीकों का उपयोग करके किया गया है:
- विधि #1 (MS): MedQA संग्रह के चिकित्सा बोर्ड परीक्षा प्रश्नों का उपयोग करके, चिकित्सा पृष्ठभूमि वाले एनोटेटरों ने परिदृश्य पाठ में गलत उत्तर डाले।
- विधि #2 (UW): वाशिंगटन विश्वविद्यालय के तीन अस्पताल प्रणालियों के वास्तविक नैदानिक नोट डेटाबेस का उपयोग करके, मेडिकल छात्रों की टीम ने रिकॉर्ड में मैन्युअल रूप से त्रुटियां डालीं।
दोनों विधियों को सख्त गुणवत्ता नियंत्रण के अधीन किया गया, जिससे डेटा की सटीकता और विश्वसनीयता सुनिश्चित हुई।
चिकित्सा त्रुटि का पता लगाने और सुधारने के तरीके
चिकित्सा त्रुटि का पता लगाने और सुधारने के कार्यों में मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, शोधकर्ताओं ने इस प्रक्रिया को तीन उप-कार्यों में विभाजित किया:
- उप-कार्य A: त्रुटि ध्वज की भविष्यवाणी करें (0: कोई त्रुटि नहीं; 1: त्रुटि है)।
- उप-कार्य B: त्रुटि वाले वाक्य निकालें।
- उप-कार्य C: त्रुटि वाले वाक्य के लिए सुधारित सामग्री उत्पन्न करें।
शोध टीम ने LLM पर आधारित समाधान बनाए और आवश्यक आउटपुट उत्पन्न करने के लिए दो अलग-अलग संकेतों का उपयोग किया।
प्रयोग और परिणाम
भाषा मॉडल
शोधकर्ताओं ने Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini, और o1-preview सहित कई भाषा मॉडलों का परीक्षण किया।
प्रायोगिक परिणाम विश्लेषण
प्रायोगिक परिणामों से पता चला कि क्लाउड 3.5 सोनेट ने त्रुटि ध्वज का पता लगाने और त्रुटि वाक्य का पता लगाने में उत्कृष्ट प्रदर्शन किया। o1-preview ने त्रुटि सुधार में सर्वश्रेष्ठ प्रदर्शन किया। हालांकि, सभी मॉडल चिकित्सा त्रुटि का पता लगाने और सुधारने में मानव डॉक्टरों से कम हैं।
परिणामों से यह भी पता चला कि मॉडलों में सटीकता के साथ समस्याएं हैं, और कई मामलों में त्रुटियों के अस्तित्व की अत्यधिक भविष्यवाणी की गई है (यानी, भ्रम पैदा हुआ है)। इसके अलावा, वर्गीकरण प्रदर्शन और त्रुटि सुधार पीढ़ी प्रदर्शन के बीच रैंक अंतर है।
त्रुटि प्रकार विश्लेषण
विभिन्न त्रुटि प्रकारों का पता लगाने और सुधारने में, o1-preview ने त्रुटि ध्वज और वाक्य का पता लगाने में उच्च रिकॉल दर दिखाई, लेकिन डॉक्टरों ने सटीकता में बेहतर प्रदर्शन किया।
आगे के अध्ययन की दिशा
शोधकर्ताओं ने कहा कि आगे के अध्ययन की दिशा में संकेतों में अधिक उदाहरणों को शामिल करना और चिकित्सा त्रुटि का पता लगाने और सुधारने में मॉडल के प्रदर्शन को और बेहतर बनाने के लिए उन्हें अनुकूलित करना शामिल है।