- Published on
डीपसीकचे नवीन मॉडेल अनपेक्षितपणे उघड: प्रोग्रामिंग बेंचमार्क क्लाउड 3.5 सोनेटला मागे टाकतात
डीपसीक-व्ही3: एक नवीन शक्तिशाली मॉडेल
डीपसीक-व्ही3 हे एक नवीन आणि शक्तिशाली मोठे भाषिक मॉडेल (LLM) आहे, जे अनपेक्षितपणे समोर आले आहे. या मॉडेलने प्रोग्रामिंग बेंचमार्कमध्ये क्लाउड 3.5 सोनेटलाही मागे टाकले आहे, ज्यामुळे ते तंत्रज्ञान जगात चर्चेचा विषय बनले आहे.
मुख्य वैशिष्ट्ये:
- अपेक्षित कामगिरी: डीपसीक-व्ही3 मॉडेलने उत्कृष्ट कामगिरी दाखवली आहे.
- प्रोग्रामिंग बेंचमार्क: या मॉडेलने एडर मल्टीलिंग्युअल प्रोग्रामिंग बेंचमार्कमध्ये क्लाउड 3.5 सोनेटला हरवले आहे.
- ओपन-सोर्स एलएलएम: लाइव्हबेंच इव्हॅल्युएशन प्लॅटफॉर्मवर डीपसीक-व्ही3 सर्वात शक्तिशाली ओपन-सोर्स एलएलएम आहे.
- आर्किटेक्चर: या मॉडेलमध्ये 685B पॅरामीटर MoE (मिक्सचर ऑफ एक्सपर्ट्स) आर्किटेक्चर आहे, जे मागील आवृत्त्यांपेक्षा खूप सुधारित आहे.
डीपसीक-व्ही3 ची तांत्रिक माहिती
मॉडेल आर्किटेक्चर:
- पॅरामीटर आकार: 685 अब्ज पॅरामीटर्स
- MoE रचना: 256 तज्ञांसह मिक्सचर ऑफ एक्सपर्ट्स आर्किटेक्चर
- राऊटिंग: सिग्मॉइड फंक्शन वापरून राऊटिंग, टॉप 8 तज्ञांची निवड (टॉप-के=8)
- संदर्भ विंडो: 64K संदर्भ सपोर्ट, 4K डिफॉल्ट आणि 8K कमाल
- टोकन जनरेशन स्पीड: प्रति सेकंद सुमारे 60 टोकन
व्ही2 च्या तुलनेत मुख्य बदल:
- गेट फंक्शन: व्ही3 मध्ये तज्ञांच्या निवडीसाठी सॉफ्टमॅक्स ऐवजी सिग्मॉइड फंक्शन वापरले आहे. यामुळे मॉडेलला जास्त तज्ञांमधून निवड करता येते.
- टॉप-के निवड: व्ही3 मध्ये टॉप-के निवडीसाठी एक नवीन नोऑक्स_टीसी पद्धत वापरली आहे, ज्यामध्ये सहाय्यक तोटा आवश्यक नाही.
- तज्ञ स्कोअर ॲडजस्टमेंट: तज्ञांचे स्कोअर ॲडजस्ट करण्यासाठी एक नवीन पॅरामीटर, ई_स्कोअर_करेक्शन_बायस जोडला आहे.
व्ही2 आणि व्ही2.5 शी तुलना
- व्ही3 वि. व्ही2: व्ही3 हे व्ही2 चे सुधारित रूप आहे, ज्यामध्ये सर्व पॅरामीटर्समध्ये लक्षणीय सुधारणा आहेत.
- व्ही3 वि. व्ही2.5: व्ही3 मध्ये जास्त तज्ञ, मोठे इंटरमीडिएट लेयर आकार आणि प्रति टोकन जास्त तज्ञ आहेत.
वापरकर्ता चाचणी आणि निरीक्षणे
सुरुवातीच्या चाचण्या:
- सायमन विलिसन या विकासकाने डीपसीक-व्ही3 ची चाचणी केली आणि ते ओपनएआयच्या जीपीटी-4 आर्किटेक्चरवर आधारित असल्याचे आढळले.
- या मॉडेलने एका पेलिकनची सायकल चालवतानाची SVG प्रतिमा तयार केली.
अपेक्षित नसलेली स्व-ओळख:
- अनेक वापरकर्त्यांनी नोंदवले की डीपसीक-व्ही3 स्वतःला ओपनएआय मॉडेलवर आधारित असल्याचे सांगत आहे, कारण प्रशिक्षणामध्ये ओपनएआय मॉडेलच्या प्रतिक्रियांचा वापर केला गेला असावा.
समुदायाची प्रतिक्रिया
डीपसीक-व्ही3 च्या अनपेक्षित प्रकाशनाने आणि मजबूत कामगिरीने समुदायात उत्साह निर्माण झाला आहे. काही वापरकर्त्यांचा असा विश्वास आहे की, डीपसीक-व्ही3 ची कामगिरी ओपनएआयच्या मॉडेलपेक्षाही चांगली आहे, विशेषत: ओपन-सोर्स क्षेत्रात.
अतिरिक्त संसाधने: