- Published on
DeepSeek V3: Muundo wa AI wa Chanzo Huria Unaobadilisha Mchezo
Utangulizi
DeepSeek V3, muundo wa Mixture-of-Experts (MoE) wenye vigezo 671B, umeanzishwa na kuwa chanzo huria, na kuzua msisimko katika jumuiya ya akili bandia (AI). Muundo huu umeundwa kwa kutumia tokeni 14.8T za ubora wa juu, na ni vigezo 37B pekee vinavyoamilishwa wakati wa uchakataji.
Utendaji na Ulinganisho
Muundo huu umefikia utendaji wa hali ya juu (state-of-the-art - SOTA) miongoni mwa miundo ya chanzo huria, ukizidi Llama 3.1 405B na kushindana na miundo ya juu kama GPT-4o na Claude 3.5 Sonnet. DeepSeek V3 ni wa bei nafuu zaidi ikilinganishwa na miundo ya Claude 3.5, ukiwa na gharama ya 9% tu ya Claude 3.5 Sonnet.
Mafunzo ya Gharama nafuu
Mafunzo ya DeepSeek V3 yalihitaji chini ya masaa milioni 2.8 ya GPU, tofauti kabisa na masaa milioni 30.8 ya GPU yaliyotumika kwa Llama 3 405B. Gharama ya jumla ya mafunzo ya DeepSeek V3 ilikuwa takriban dola milioni 5.576, wakati mafunzo ya muundo wa 7B Llama 2 yaligharimu dola 760,000. Ufanisi huu wa gharama unatokana na algorithm, mfumo na vifaa vilivyoimarishwa.
Karpathy, mmoja wa waanzilishi wa OpenAI, alibaini kuwa DeepSeek V3 inafikia utendaji sawa na rasilimali chache, akisisitiza uwezekano wa uboreshaji katika data na algorithm.
Tathmini na Sifa
DeepSeek V3 imepokea sifa kutoka kwa wataalamu wa AI kama Jia Yangqing na Tian Yundong wa Meta. Inazidi miundo mingine ya chanzo huria kama Qwen2.5-72B na Llama-3.1-405B katika vigezo mbalimbali. Utendaji wa muundo huu unalinganishwa na miundo ya juu iliyofungwa kama GPT-4o na Claude-3.5-Sonnet.
Kasi na Bei
DeepSeek V3 huzalisha tokeni kwa kasi ya 60 kwa sekunde, ongezeko la mara 3 ya kasi. Bei ya API pia ni shindani sana, huku tokeni za kuingiza zikiwa na gharama ya 0.5-2 RMB kwa milioni, na tokeni za kutoa zikiwa na gharama ya 8 RMB kwa milioni. Tathmini ya Kagi inaiweka DeepSeek V3 kileleni mwa miundo ya chanzo huria, karibu nyuma ya Sonnet-3.5 na GPT-4o.
Ushiriki wa Jumuiya
Muundo huu unapatikana kwa majaribio kwenye jukwaa rasmi, huku msimbo ukiwa chanzo huria kwa kupakuliwa. Mashabiki wa AI wamekuwa wakifanya majaribio na DeepSeek V3, ikiwa ni pamoja na kuiendesha kwenye Mac Minis zilizopangwa. Wasanidi programu wameonyesha mshangao wao kwa uwezo wa muundo huo kuelewa maagizo magumu bila maelezo ya wazi. Msanidi mmoja alitengeneza mchezo kwa kutumia nembo za makampuni ya AI kwa kutumia DeepSeek V3 kwa muda mfupi.
Bei ya Uendeshaji
Gharama ndogo ya kuendesha DeepSeek V3 imesisitizwa, huku mtumiaji mmoja akibainisha kuwa inagharimu dola 2 tu kwa siku kuendesha kwa tokeni 60 kwa sekunde.
Maelezo ya Mafunzo
Mafunzo ya DeepSeek V3 yaliboreshwa kupitia uboreshaji wa algorithm, mfumo na vifaa. Muundo huo ulifunzwa kwa kutumia tokeni trilioni moja katika masaa 180,000 ya GPU, na kukamilisha mafunzo ya awali chini ya miezi miwili. Gharama ya jumla ya mafunzo ilikuwa masaa milioni 2.788 ya GPU, au dola milioni 5.576.
Uboreshaji Mkuu
Uboreshaji mkuu ni pamoja na:
- Usawazishaji wa Mzigo: Mbinu mpya ya usawazishaji wa mzigo na maneno ya upendeleo kwa kila mtaalamu katika muundo wa MoE.
- Utabiri wa Tokeni Nyingi (MTP): Lengo la mafunzo linaloboresha utendaji wa muundo na kuwezesha uendeshaji wa haraka kupitia speculative decoding.
- Mafunzo ya FP8: Matumizi ya mafunzo ya mchanganyiko wa usahihi wa FP8, kuonyesha uwezekano wake kwa miundo mikubwa.
- DualPipe: Algorithm bora ya parallel pipeline ambayo huweka hesabu na mawasiliano pamoja, kupunguza gharama ya mawasiliano.
Muundo wa MoE una wataalamu 256 wa kupanga na mtaalamu 1 anayeshirikiwa, huku kila tokeni ikiwaamsha wataalamu 8 na kutumwa kwa kiwango cha juu cha nodi 4. Wataalamu wa ziada huwekwa ili kusawazisha mzigo wakati wa uchakataji. Uwezo wa uchakataji wa muundo huo uliboreshwa kwa kunukuu maarifa kutoka kwa muundo wa mnyororo mrefu (DeepSeek R1).
Matokeo ya Majaribio
DeepSeek V3 inafikia utendaji wa SOTA miongoni mwa miundo ya chanzo huria katika vigezo mbalimbali. Muundo huu unafanya vizuri katika majaribio ya "sindano-kwenye-nyasi", kuonyesha uwezo wake wa kupata taarifa maalum kutoka kwa muktadha mrefu.
Rasilimali
- Ripoti ya Kiufundi: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3