- Published on
डीपसीक V3: एक महत्त्वपूर्ण ओपन-सोर्स मॉडेल
डीपसीक V3: एक महत्त्वपूर्ण ओपन-सोर्स मॉडेल
डीपसीक V3, एक 671B पॅरामीटर मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) मॉडेल, ओपन-सोर्स म्हणून जारी केले गेले आहे, ज्यामुळे AI समुदायात खळबळ उडाली आहे. हे 14.8T उच्च-गुणवत्तेच्या टोकन्सवर प्रशिक्षित आहे, ज्यामध्ये फक्त 37B पॅरामीटर इनफरन्स दरम्यान सक्रिय होतात.
मॉडेलची कामगिरी
हे मॉडेल ओपन-सोर्स मॉडेल्समध्ये स्टेट-ऑफ-द-आर्ट (SOTA) कामगिरी करते, Llama 3.1 405B ला मागे टाकते आणि GPT-4o आणि Claude 3.5 Sonnet सारख्या टॉप मॉडेल्सशी स्पर्धा करते. विशेष म्हणजे, डीपसीक V3 हे क्लॉड 3.5 मॉडेल्सपेक्षा खूपच स्वस्त आहे, त्याची किंमत क्लॉड 3.5 सोनेटच्या फक्त 9% आहे.
खर्चिक प्रशिक्षण
डीपसीक V3 च्या प्रशिक्षणासाठी 2.8 दशलक्ष GPU तासांपेक्षा कमी वेळ लागला, तर Llama 3 405B ला 30.8 दशलक्ष GPU तास लागले. डीपसीक V3 च्या प्रशिक्षणाचा एकूण खर्च अंदाजे 760,000 खर्च आला. हे खर्चिक प्रशिक्षण ऑप्टिमाइझ्ड अल्गोरिदम, फ्रेमवर्क आणि हार्डवेअरमुळे शक्य झाले. OpenAI चे संस्थापक सदस्य कार्पेथी यांनी नमूद केले की, डीपसीक V3 कमी संसाधनांमध्येही चांगली कामगिरी करते, डेटा आणि अल्गोरिदममध्ये ऑप्टिमायझेशनची क्षमता दर्शवते.
मूल्यांकन आणि कार्यक्षमता
जिया यांगकिंग आणि मेटाच्या तियान युंडोंग यांसारख्या AI तज्ञांनी डीपसीक V3 चे कौतुक केले आहे. हे मॉडेल विविध बेंचमार्कमध्ये Qwen2.5-72B आणि Llama-3.1-405B सारख्या इतर ओपन-सोर्स मॉडेल्सपेक्षा चांगली कामगिरी करते. डीपसीक V3 ची कार्यक्षमता GPT-4o आणि Claude-3.5-Sonnet सारख्या टॉप क्लोज्ड-सोर्स मॉडेल्सच्या तुलनेत आहे. हे मॉडेल प्रति सेकंद 60 टोकन्स जनरेट करते, जी 3x वेगाने सुधारणा आहे. API ची किंमत देखील खूप स्पर्धात्मक आहे, ज्यामध्ये इनपुट टोकनची किंमत प्रति दशलक्ष 0.5-2 RMB आणि आउटपुट टोकनची किंमत प्रति दशलक्ष 8 RMB आहे. Kagi च्या मूल्यांकनानुसार, डीपसीक V3 ओपन-सोर्स मॉडेल्समध्ये अव्वल स्थानी आहे, जे Sonnet-3.5 आणि GPT-4o च्या जवळपास आहे.
समुदाय सहभाग
हे मॉडेल अधिकृत प्लॅटफॉर्मवर चाचणीसाठी उपलब्ध आहे आणि कोड डाउनलोड करण्यासाठी ओपन-सोर्स केले आहे. AI उत्साही डीपसीक V3 सोबत प्रयोग करत आहेत, ज्यामध्ये स्टॅक्ड Mac Minis वर चालवणे देखील समाविष्ट आहे. विकासकांनी मॉडेलच्या जटिल सूचना स्पष्टीकरणाशिवाय समजून घेण्याच्या क्षमतेबद्दल आश्चर्य व्यक्त केले आहे. एका विकासकाने डीपसीक V3 वापरून AI कंपनीच्या लोगोचा वापर करून थोड्या वेळात एक गेम तयार केला. डीपसीक V3 चालवण्याचा कमी खर्च देखील निदर्शनास आणला गेला आहे, एका वापरकर्त्याने नमूद केले की 60 टोकन प्रति सेकंद चालवण्यासाठी फक्त $2 प्रति दिवस खर्च येतो.
प्रशिक्षणाची माहिती
डीपसीक V3 चे प्रशिक्षण अल्गोरिदम, फ्रेमवर्क आणि हार्डवेअर सुधारणांद्वारे ऑप्टिमाइझ केले गेले. मॉडेलला 180,000 GPU तासांमध्ये एक ट्रिलियन टोकन्सवर प्रशिक्षित केले गेले, ज्यामुळे दोन महिन्यांपेक्षा कमी वेळेत प्री-ट्रेनिंग पूर्ण झाले. प्रशिक्षणाचा एकूण खर्च 2.788 दशलक्ष GPU तास किंवा $5.576 दशलक्ष होता.
महत्त्वाचे ऑप्टिमायझेशन:
- लोड बॅलेंसिंग: MoE आर्किटेक्चरमधील प्रत्येक तज्ञासाठी बायस टर्म्ससह एक नवीन लोड बॅलेंसिंग स्ट्रॅटेजी.
- मल्टी-टोकन प्रेडिक्शन (MTP): एक प्रशिक्षण उद्दिष्ट जे मॉडेलची कार्यक्षमता सुधारते आणि स्पेक्युलेटिव्ह डिकोडिंगद्वारे जलद इनफरन्स सक्षम करते.
- FP8 प्रशिक्षण: FP8 मिक्स-प्रेसिजन प्रशिक्षणाचा वापर, मोठ्या प्रमाणात मॉडेल्ससाठी त्याची व्यवहार्यता दर्शवते.
- DualPipe: एक कार्यक्षम पाइपलाइन पॅरलल अल्गोरिदम जे गणना आणि कम्युनिकेशन ओव्हरलॅप करते, ज्यामुळे कम्युनिकेशन ओव्हरहेड कमी होतो.
MoE आर्किटेक्चरमध्ये 256 राउटिंग तज्ञ आणि 1 सामायिक तज्ञ आहेत, ज्यात प्रत्येक टोकन 8 तज्ञांना सक्रिय करते आणि जास्तीत जास्त 4 नोड्सवर पाठवले जाते. इनफरन्स दरम्यान लोड संतुलित करण्यासाठी अनावश्यक तज्ञ तैनात केले जातात. मॉडेलची इनफरन्स क्षमता लाँग-चेन मॉडेल (डीपसीक R1) मधून ज्ञान डिस्टिल करून वाढवण्यात आली.
प्रायोगिक निकाल
डीपसीक V3 विविध बेंचमार्कमध्ये ओपन-सोर्स मॉडेल्समध्ये SOTA कामगिरी करते. हे मॉडेल "नीडल-इन-ए-हेस्टॅक" प्रयोगांमध्ये चांगली कामगिरी करते, जे लांब संदर्भांमधून विशिष्ट माहिती पुनर्प्राप्त करण्याची क्षमता दर्शवते.
संसाधने
- तांत्रिक अहवाल: DeepSeek_V3.pdf
- हगिंग फेस: DeepSeek-V3