डीपसीक वी3: एक अभूतपूर्व ओपन-सोर्स मॉडल

डीपसीक वी3, एक 671बी पैरामीटर वाला मिक्सचर-ऑफ-एक्सपर्ट्स (एमओई) मॉडल, को ओपन-सोर्स किया गया है, जिससे एआई समुदाय में हलचल मच गई है। इसे 14.8टी उच्च-गुणवत्ता वाले टोकन पर प्रशिक्षित किया गया है, जिसमें अनुमान के दौरान केवल 37बी पैरामीटर सक्रिय होते हैं। यह मॉडल ओपन-सोर्स मॉडलों में स्टेट-ऑफ-द-आर्ट (एसओटीए) प्रदर्शन प्राप्त करता है, जो लामा 3.1 405बी से आगे निकल जाता है और जीपीटी-4ओ और क्लाउड 3.5 सोनेट जैसे शीर्ष मॉडलों के साथ प्रतिस्पर्धा करता है।

लागत प्रभावी प्रशिक्षण

डीपसीक वी3 के प्रशिक्षण में 2.8 मिलियन से कम जीपीयू घंटे लगे, जो लामा 3 405बी के 30.8 मिलियन जीपीयू घंटों के विपरीत है। डीपसीक वी3 की कुल प्रशिक्षण लागत लगभग $5.576 मिलियन थी, जबकि 7बी लामा 2 मॉडल को प्रशिक्षित करने में$ 760,000 खर्च होते हैं। यह लागत-प्रभावशीलता अनुकूलित एल्गोरिदम, फ्रेमवर्क और हार्डवेयर के कारण है। ओपनएआई के संस्थापक सदस्य कारपैथी ने कहा कि डीपसीक वी3 काफी कम संसाधनों के साथ तुलनीय प्रदर्शन प्राप्त करता है, जो डेटा और एल्गोरिदम में अनुकूलन की क्षमता को उजागर करता है।

प्रदर्शन और मूल्यांकन

डीपसीक वी3 को जिया यांगकिंग और मेटा के तियान युंडोंग जैसे एआई विशेषज्ञों से प्रशंसा मिली है। यह विभिन्न बेंचमार्क में क्यूवेन2.5-72बी और लामा-3.1-405बी जैसे अन्य ओपन-सोर्स मॉडल से बेहतर प्रदर्शन करता है। मॉडल का प्रदर्शन जीपीटी-4ओ और क्लाउड-3.5-सोनेट जैसे शीर्ष क्लोज्ड-सोर्स मॉडल के बराबर है। डीपसीक वी3 60 टोकन प्रति सेकंड की दर से टोकन उत्पन्न करता है, जो 3 गुना गति सुधार है। एपीआई मूल्य निर्धारण भी बहुत प्रतिस्पर्धी है, जिसमें इनपुट टोकन की लागत 0.5-2 आरएमबी प्रति मिलियन और आउटपुट टोकन की लागत 8 आरएमबी प्रति मिलियन है। कागी के मूल्यांकन में डीपसीक वी3 को ओपन-सोर्स मॉडल में सबसे ऊपर रखा गया है, जो सोनेट-3.5 और जीपीटी-4ओ के करीब है।

सामुदायिक जुड़ाव

यह मॉडल आधिकारिक प्लेटफॉर्म पर परीक्षण के लिए उपलब्ध है, जिसमें डाउनलोड के लिए कोड ओपन-सोर्स किया गया है। एआई उत्साही डीपसीक वी3 के साथ प्रयोग कर रहे हैं, जिसमें स्टैक्ड मैक मिनी पर इसे चलाना भी शामिल है। डेवलपर्स ने मॉडल की जटिल निर्देशों को बिना स्पष्ट स्पष्टीकरण के समझने की क्षमता पर आश्चर्य व्यक्त किया है। एक डेवलपर ने डीपसीक वी3 के साथ कम समय में एआई कंपनी लोगो का उपयोग करके एक गेम बनाया। डीपसीक वी3 को चलाने की कम लागत को उजागर किया गया है, जिसमें एक उपयोगकर्ता ने कहा है कि 60 टोकन प्रति सेकंड पर चलाने में केवल $2 प्रति दिन खर्च होता है।

प्रशिक्षण विवरण

डीपसीक वी3 के प्रशिक्षण को एल्गोरिथम, फ्रेमवर्क और हार्डवेयर सुधारों के माध्यम से अनुकूलित किया गया था। मॉडल को 180,000 जीपीयू घंटों में एक ट्रिलियन टोकन पर प्रशिक्षित किया गया था, जो दो महीने से कम समय में प्री-ट्रेनिंग को पूरा करता है। कुल प्रशिक्षण लागत 2.788 मिलियन जीपीयू घंटे या $5.576 मिलियन थी। प्रमुख अनुकूलन में शामिल हैं:

लोड बैलेंसिंग: एमओई आर्किटेक्चर में प्रत्येक विशेषज्ञ के लिए पूर्वाग्रह शर्तों के साथ एक उपन्यास लोड बैलेंसिंग रणनीति।
मल्टी-टोकन प्रेडिक्शन (एमटीपी): एक प्रशिक्षण उद्देश्य जो मॉडल के प्रदर्शन को बेहतर बनाता है और स्पेक्युलेटिव डिकोडिंग के माध्यम से तेज़ अनुमान को सक्षम बनाता है।
एफपी8 प्रशिक्षण: एफपी8 मिश्रित-परिशुद्धता प्रशिक्षण का उपयोग, बड़े पैमाने के मॉडल के लिए इसकी व्यवहार्यता का प्रदर्शन।
डुअलपाइप: एक कुशल पाइपलाइन समानांतर एल्गोरिथम जो संगणना और संचार को ओवरलैप करता है, जिससे संचार ओवरहेड कम होता है।

एमओई आर्किटेक्चर में 256 रूटिंग विशेषज्ञ और 1 साझा विशेषज्ञ शामिल हैं, जिसमें प्रत्येक टोकन 8 विशेषज्ञों को सक्रिय करता है और अधिकतम 4 नोड्स पर भेजा जाता है। अनुमान के दौरान लोड को संतुलित करने के लिए निरर्थक विशेषज्ञों को तैनात किया जाता है। मॉडल की अनुमान क्षमताओं को एक लंबी-श्रृंखला मॉडल (डीपसीक आर1) से ज्ञान को डिस्टिल करके बढ़ाया गया था।

प्रायोगिक परिणाम

डीपसीक वी3 विभिन्न बेंचमार्क में ओपन-सोर्स मॉडल के बीच एसओटीए प्रदर्शन प्राप्त करता है। मॉडल "हे-इन-ए-नीडलस्टैक" प्रयोगों में अच्छा प्रदर्शन करता है, जो लंबी संदर्भों से विशिष्ट जानकारी प्राप्त करने की अपनी क्षमता को दर्शाता है।

संसाधन

तकनीकी रिपोर्ट: DeepSeek_V3.pdf
हगिंग फेस: DeepSeek-V3