- Published on
Mfumo Mpya wa Deepseek Wavuja na Kufanya Vizuri Zaidi ya Claude 3.5 Sonnet
Ufunuo Usiotarajiwa wa Mfumo Mpya wa Deepseek
Mfumo wa Deepseek-v3, ambao haukutangazwa, umevuja na unaonyesha utendaji wa kuvutia. Umezidi Claude 3.5 Sonnet katika jaribio la lugha nyingi za programu la Aider. Hivi sasa, Deepseek-v3 ndio mfumo bora zaidi wa LLM wa wazi kwenye jukwaa la tathmini la LiveBench. Usanifu wa mfumo huu unajumuisha muundo wa vigezo bilioni 685 wa MoE, wenye maboresho makubwa ikilinganishwa na matoleo ya awali.
Taarifa za Msingi
Uvujaji huo uliripotiwa kwanza na watumiaji wa Reddit, ambao walipata mfumo huo ukiwa unapatikana kwenye API na kurasa za wavuti. Utendaji wa Deepseek-v3 umekaguliwa kwa kutumia majaribio mbalimbali, ikiwa ni pamoja na Aider na LiveBench. Uzito wa mfumo wa wazi tayari unapatikana kwenye Hugging Face, ingawa kadi ya mfumo bado haipatikani.
Maelezo ya Kitaalamu ya Deepseek-V3
Usanifu wa Mfumo
- Ukubwa wa Vigezo: Vigezo bilioni 685
- Muundo wa MoE: Muundo wa Mchanganyiko wa Wataalamu wenye wataalamu 256
- Uelekezaji: Hutumia kazi ya sigmoid kwa uelekezaji, kuchagua wataalamu 8 bora (Top-k=8)
- Dirisha la Muktadha: Huunga mkono muktadha wa 64K, na chaguo-msingi la 4K na kiwango cha juu cha 8K
- Kasi ya Kuzalisha Tokeni: Takriban tokeni 60 kwa sekunde
Mabadiliko Makuu ya Usanifu Ikilinganishwa na V2
- Kazi ya Lango: v3 hutumia kazi ya sigmoid badala ya softmax kwa uteuzi wa wataalamu. Hii inaruhusu mfumo kuchagua kutoka kwa kundi kubwa la wataalamu, tofauti na softmax ambayo huelekea kupendelea wachache.
- Uteuzi wa Top-k: v3 huleta mbinu mpya ya noaux_tc kwa uteuzi wa Top-k, ambayo haihitaji hasara saidizi. Hii hurahisisha mafunzo na kuboresha ufanisi kwa kutumia moja kwa moja kazi kuu ya hasara.
- Marekebisho ya Alama ya Mtaalamu: Parameta mpya, e_score_correction_bias, imeongezwa kurekebisha alama za wataalamu, na kusababisha utendaji bora wakati wa uteuzi wa wataalamu na mafunzo ya mfumo.
Kulinganisha na V2 na V2.5
- v3 dhidi ya v2: v3 kimsingi ni toleo lililoboreshwa la v2, lenye maboresho makubwa katika vigezo vyote.
- v3 dhidi ya v2.5: v3 huzidi v2.5 katika usanidi, ikiwa ni pamoja na wataalamu wengi zaidi, ukubwa mkubwa wa tabaka za kati, na wataalamu zaidi kwa tokeni.
Majaribio ya Watumiaji na Uchunguzi
Majaribio ya Awali
Simon Willison, msanidi programu, alijaribu Deepseek-v3 na kugundua kuwa ilijitambulisha kama inategemea usanifu wa GPT-4 wa OpenAI. Mfumo huo pia ulijaribiwa kwa uzalishaji wa picha, ukitengeneza picha ya SVG ya pelican akiendesha baiskeli.
Utambulisho Binafsi Usiotarajiwa
Watumiaji wengi waliripoti kwamba Deepseek-v3 ilijitambulisha kama inategemea mifumo ya OpenAI, labda kutokana na matumizi ya majibu ya mfumo wa OpenAI wakati wa mafunzo.
Maoni ya Jumuiya
Utoaji usiotarajiwa na utendaji mzuri wa Deepseek-v3 umezua msisimko katika jumuiya. Baadhi ya watumiaji wanaamini kwamba utendaji wa Deepseek-v3 unazidi ule wa mifumo ya OpenAI, hasa katika uwanja wa wazi.