- Published on
డీప్సీక్ కొత్త మోడల్ ఊహించని విధంగా వెల్లడైంది: ప్రోగ్రామింగ్ బెంచ్మార్క్లు క్లాడ్ 3.5 సోనెట్ను అధిగమించాయి
డీప్సీక్-వి3: ఊహించని ఆవిష్కరణ
డీప్సీక్-వి3 అనే పేరుతో ఒక కొత్త మోడల్ ఊహించని విధంగా వెలుగులోకి వచ్చింది. ఇది అనేక ప్రోగ్రామింగ్ బెంచ్మార్క్లలో అద్భుతమైన పనితీరును కనబరిచింది. ముఖ్యంగా, ఇది ఐడర్ బహుభాషా ప్రోగ్రామింగ్ బెంచ్మార్క్లో క్లాడ్ 3.5 సోనెట్ను అధిగమించింది. ప్రస్తుతం, లైవ్బెంచ్ మూల్యాంకన వేదికపై ఇది అత్యంత బలమైన ఓపెన్-సోర్స్ ఎల్ఎల్ఎమ్గా గుర్తింపు పొందింది. ఈ మోడల్ యొక్క ఆర్కిటెక్చర్ 685 బిలియన్ పారామీటర్ల మోఇ (మిక్స్చర్ ఆఫ్ ఎక్స్పర్ట్స్) నిర్మాణాన్ని కలిగి ఉంది, ఇది మునుపటి వెర్షన్ల కంటే చాలా మెరుగైనది.
మోడల్ వెల్లడి వెనుక కథ
ఈ మోడల్ లీక్ అయినట్లు మొదట రెడ్డిట్ వినియోగదారులు గుర్తించారు. వారు APIలు మరియు వెబ్ పేజీలలో ఈ మోడల్ను కనుగొన్నారు. డీప్సీక్-వి3 పనితీరును ఐడర్ మరియు లైవ్బెంచ్తో సహా వివిధ బెంచ్మార్క్లలో పరీక్షించారు. ఈ మోడల్ యొక్క ఓపెన్-సోర్స్ వెయిట్లు హగ్గింగ్ ఫేస్లో అందుబాటులో ఉన్నాయి, అయితే మోడల్ కార్డ్ ఇంకా అందుబాటులోకి రాలేదు.
డీప్సీక్-వి3 సాంకేతిక వివరాలు
డీప్సీక్-వి3 యొక్క నిర్మాణం, పారామీటర్ పరిమాణం మరియు ఇతర సాంకేతిక వివరాలు ఈ క్రింది విధంగా ఉన్నాయి:
- పారామీటర్ పరిమాణం: 685 బిలియన్ పారామీటర్లు
- మోఇ నిర్మాణం: 256 నిపుణులతో మిక్స్చర్ ఆఫ్ ఎక్స్పర్ట్స్ ఆర్కిటెక్చర్
- రూటింగ్: సిగ్మోయిడ్ ఫంక్షన్ను ఉపయోగించి రూటింగ్, టాప్ 8 నిపుణులను ఎంపిక చేస్తుంది (టాప్-k=8)
- సందర్భ విండో: 64K సందర్భాన్ని మద్దతు ఇస్తుంది, డిఫాల్ట్గా 4K మరియు గరిష్టంగా 8K
- టోకెన్ జనరేషన్ వేగం: సెకనుకు సుమారు 60 టోకెన్లు
వి2 తో పోలిస్తే కీలకమైన ఆర్కిటెక్చరల్ మార్పులు
డీప్సీక్-వి3 మోడల్లో వి2 తో పోలిస్తే అనేక కీలకమైన మార్పులు ఉన్నాయి. అవి:
- గేట్ ఫంక్షన్: వి3 నిపుణుల ఎంపిక కోసం సాఫ్ట్మాక్స్ బదులు సిగ్మోయిడ్ ఫంక్షన్ను ఉపయోగిస్తుంది. ఇది ఎక్కువ మంది నిపుణుల నుండి ఎంచుకోవడానికి అనుమతిస్తుంది. సాఫ్ట్మాక్స్ కొన్నింటికి మాత్రమే ప్రాధాన్యతనిస్తుంది.
- టాప్-k ఎంపిక: వి3 టాప్-k ఎంపిక కోసం కొత్త నోయాక్స్_టిసి పద్ధతిని ప్రవేశపెట్టింది, దీనికి అదనపు నష్టం అవసరం లేదు. ఇది శిక్షణను సులభతరం చేస్తుంది మరియు ప్రధాన పని యొక్క నష్టాన్ని నేరుగా ఉపయోగించడం ద్వారా సామర్థ్యాన్ని మెరుగుపరుస్తుంది.
- నిపుణుల స్కోర్ సర్దుబాటు: ఇ_స్కోర్_కరెక్షన్_బయాస్ అనే కొత్త పారామీటర్ను జోడించారు, ఇది నిపుణుల ఎంపిక మరియు మోడల్ శిక్షణ సమయంలో మంచి పనితీరును అందిస్తుంది.
వి2 మరియు వి2.5 తో పోలిక
వి3, వి2 తో పోలిస్తే అన్ని పారామీటర్లలో గణనీయమైన మెరుగుదలలను కలిగి ఉంది. వి2.5 తో పోలిస్తే, వి3 ఎక్కువ మంది నిపుణులు, పెద్ద ఇంటర్మీడియట్ లేయర్ పరిమాణాలు మరియు టోకెన్కు ఎక్కువ మంది నిపుణులతో సహా కాన్ఫిగరేషన్లో వి2.5ను అధిగమించింది.
వినియోగదారు పరీక్షలు మరియు పరిశీలనలు
ప్రారంభ పరీక్షలలో, డెవలపర్ సైమన్ విల్లిసన్ డీప్సీక్-వి3ని పరీక్షించారు. ఇది OpenAI యొక్క GPT-4 ఆర్కిటెక్చర్పై ఆధారపడి ఉందని గుర్తించారు. ఈ మోడల్ను ఇమేజ్ జనరేషన్ కోసం కూడా పరీక్షించారు, సైకిల్ తొక్కుతున్న పెలికాన్ యొక్క SVG చిత్రాన్ని రూపొందించారు. అనేక మంది వినియోగదారులు డీప్సీక్-వి3 OpenAI మోడళ్లపై ఆధారపడి ఉందని నివేదించారు. శిక్షణ సమయంలో OpenAI మోడల్ ప్రతిస్పందనలను ఉపయోగించడం దీనికి కారణం కావచ్చు.
సంఘం స్పందన
డీప్సీక్-వి3 ఊహించని విడుదల మరియు బలమైన పనితీరు సంఘంలో ఉత్సాహాన్ని రేకెత్తించాయి. కొంతమంది వినియోగదారులు డీప్సీక్-వి3 పనితీరు, ముఖ్యంగా ఓపెన్-సోర్స్ డొమైన్లో OpenAI మోడల్లను అధిగమిస్తుందని నమ్ముతున్నారు.
అదనపు వనరులు
డీప్సీక్-వి3 మోడల్ యొక్క ఈ ఆకస్మిక ఆవిష్కరణ మరియు దాని అద్భుతమైన పనితీరు కృత్రిమ మేధ ప్రపంచంలో ఒక ముఖ్యమైన ముందడుగుగా చెప్పవచ్చు. ఈ మోడల్ రాబోయే కాలంలో అనేక ఆవిష్కరణలకు దారి తీస్తుందని ఆశిద్దాం.