- Published on
डीपसीक का नया मॉडल अप्रत्याशित रूप से सामने आया: प्रोग्रामिंग बेंचमार्क क्लाउड 3.5 सोननेट से आगे निकले
डीपसीक-वी3 का अप्रत्याशित अनावरण: प्रोग्रामिंग बेंचमार्क में क्लाउड 3.5 सोननेट को मात
डीपसीक-वी3, एक ऐसा मॉडल जिसके बारे में पहले कोई घोषणा नहीं की गई थी, अप्रत्याशित रूप से लीक हो गया है और यह अपने प्रभावशाली प्रदर्शन से सभी को आश्चर्यचकित कर रहा है। यह मॉडल न केवल पहले से मौजूद मॉडलों को चुनौती दे रहा है, बल्कि कुछ मामलों में उनसे बेहतर प्रदर्शन भी कर रहा है।
मुख्य बातें
- अप्रत्याशित प्रदर्शन: डीपसीक-वी3, एक ऐसा मॉडल जिसके बारे में पहले कोई जानकारी नहीं थी, लीक होने के बाद से ही अपने प्रदर्शन से लोगों को हैरान कर रहा है।
- बेंचमार्क में बढ़त: इस मॉडल ने Aider बहुभाषी प्रोग्रामिंग बेंचमार्क में क्लाउड 3.5 सोननेट को पछाड़ दिया है, जिससे यह साबित होता है कि यह प्रोग्रामिंग कार्यों में बहुत सक्षम है।
- ओपन-सोर्स में शीर्ष: वर्तमान में, डीपसीक-वी3 लाइवबेंच मूल्यांकन प्लेटफॉर्म पर सबसे शक्तिशाली ओपन-सोर्स एलएलएम (बड़े भाषा मॉडल) है।
- उन्नत आर्किटेक्चर: मॉडल में 685 बिलियन पैरामीटर के साथ MoE (मिक्सचर ऑफ एक्सपर्ट्स) संरचना है, जो इसे पिछले संस्करणों से काफी बेहतर बनाती है।
पृष्ठभूमि जानकारी
यह लीक सबसे पहले रेडिट उपयोगकर्ताओं द्वारा रिपोर्ट किया गया था, जिन्होंने मॉडल को एपीआई और वेब पेजों पर उपलब्ध पाया। डीपसीक-वी3 के प्रदर्शन का मूल्यांकन विभिन्न बेंचमार्क जैसे Aider और LiveBench पर किया गया है। मॉडल के ओपन-सोर्स वेट पहले से ही हगिंग फेस पर उपलब्ध हैं, हालांकि मॉडल कार्ड अभी तक उपलब्ध नहीं है।
डीपसीक-वी3 तकनीकी विवरण
डीपसीक-वी3 की तकनीकी विशिष्टताओं पर एक नज़र डालने से पता चलता है कि यह मॉडल कितना शक्तिशाली है:
- मॉडल आर्किटेक्चर:
- पैरामीटर आकार: 685 बिलियन पैरामीटर
- MoE संरचना: 256 विशेषज्ञों के साथ मिक्सचर ऑफ एक्सपर्ट्स आर्किटेक्चर
- राउटिंग: शीर्ष 8 विशेषज्ञों (Top-k=8) का चयन करने के लिए राउटिंग के लिए एक सिग्मॉइड फ़ंक्शन का उपयोग करता है।
- संदर्भ विंडो: 64K संदर्भ का समर्थन करता है, जिसमें 4K डिफ़ॉल्ट और 8K अधिकतम है।
- टोकन जनरेशन स्पीड: लगभग 60 टोकन प्रति सेकंड।
वी2 की तुलना में प्रमुख आर्किटेक्चरल परिवर्तन
डीपसीक-वी3 में कुछ महत्वपूर्ण वास्तु परिवर्तन किए गए हैं जो इसे पिछले संस्करणों से अलग करते हैं:
- गेट फ़ंक्शन: v3 विशेषज्ञ चयन के लिए सॉफ्टमैक्स के बजाय एक सिग्मॉइड फ़ंक्शन का उपयोग करता है। यह मॉडल को विशेषज्ञों के एक बड़े सेट से चुनने की अनुमति देता है, जबकि सॉफ्टमैक्स कुछ को ही प्राथमिकता देता है।
- टॉप-के चयन: v3 टॉप-के चयन के लिए एक नई noaux_tc विधि पेश करता है, जिसके लिए सहायक नुकसान की आवश्यकता नहीं होती है। यह प्रशिक्षण को सरल बनाता है और मुख्य कार्य के नुकसान फ़ंक्शन का सीधे उपयोग करके दक्षता में सुधार करता है।
- विशेषज्ञ स्कोर समायोजन: विशेषज्ञ स्कोर को समायोजित करने के लिए एक नया पैरामीटर, e_score_correction_bias, जोड़ा गया है, जिससे विशेषज्ञ चयन और मॉडल प्रशिक्षण के दौरान बेहतर प्रदर्शन होता है।
वी2 और वी2.5 से तुलना
- v3 बनाम v2: v3 अनिवार्य रूप से v2 का एक उन्नत संस्करण है, जिसमें सभी मापदंडों में महत्वपूर्ण सुधार हैं।
- v3 बनाम v2.5: v3 कॉन्फ़िगरेशन के मामले में v2.5 से आगे निकल जाता है, जिसमें अधिक विशेषज्ञ, बड़े मध्यवर्ती परत आकार और प्रति टोकन अधिक विशेषज्ञ शामिल हैं।
उपयोगकर्ता परीक्षण और अवलोकन
- प्रारंभिक परीक्षण: डेवलपर साइमन विलिसन ने डीपसीक-वी3 का परीक्षण किया और पाया कि इसने खुद को OpenAI के GPT-4 आर्किटेक्चर पर आधारित बताया। मॉडल का परीक्षण इमेज जनरेशन के लिए भी किया गया था, जिसमें एक पेलिकन को साइकिल चलाते हुए दिखाया गया था।
- अप्रत्याशित स्व-पहचान: कई उपयोगकर्ताओं ने बताया कि डीपसीक-वी3 ने खुद को OpenAI मॉडल पर आधारित बताया, संभवतः प्रशिक्षण के दौरान OpenAI मॉडल प्रतिक्रियाओं के उपयोग के कारण।
सामुदायिक प्रतिक्रिया
डीपसीक-वी3 की अप्रत्याशित रिलीज़ और मजबूत प्रदर्शन ने समुदाय में उत्साह पैदा किया है। कुछ उपयोगकर्ताओं का मानना है कि डीपसीक-वी3 का प्रदर्शन OpenAI के मॉडलों से भी बेहतर है, खासकर ओपन-सोर्स डोमेन में।
अतिरिक्त संसाधन
डीपसीक-वी3 का यह अप्रत्याशित अनावरण निश्चित रूप से भाषा मॉडल के क्षेत्र में एक महत्वपूर्ण घटना है। यह देखना दिलचस्प होगा कि यह मॉडल भविष्य में कैसे विकसित होता है और इसका उपयोग किस प्रकार किया जाता है।