Published on

డీప్‌సీక్ కొత్త మోడల్ ఊహించని విధంగా వెల్లడైంది: ప్రోగ్రామింగ్ బెంచ్‌మార్క్‌లు క్లాడ్ 3.5 సోనెట్‌ను అధిగమించాయి

రచయితలు
  • avatar
    పేరు
    Ajax
    Twitter

డీప్‌సీక్-వి3: ఊహించని ఆవిష్కరణ

డీప్‌సీక్-వి3 అనే పేరుతో ఒక కొత్త మోడల్ ఊహించని విధంగా వెలుగులోకి వచ్చింది. ఇది అనేక ప్రోగ్రామింగ్ బెంచ్‌మార్క్‌లలో అద్భుతమైన పనితీరును కనబరిచింది. ముఖ్యంగా, ఇది ఐడర్ బహుభాషా ప్రోగ్రామింగ్ బెంచ్‌మార్క్‌లో క్లాడ్ 3.5 సోనెట్‌ను అధిగమించింది. ప్రస్తుతం, లైవ్‌బెంచ్ మూల్యాంకన వేదికపై ఇది అత్యంత బలమైన ఓపెన్-సోర్స్ ఎల్‌ఎల్‌ఎమ్‌గా గుర్తింపు పొందింది. ఈ మోడల్ యొక్క ఆర్కిటెక్చర్ 685 బిలియన్ పారామీటర్ల మోఇ (మిక్స్‌చర్ ఆఫ్ ఎక్స్‌పర్ట్స్) నిర్మాణాన్ని కలిగి ఉంది, ఇది మునుపటి వెర్షన్‌ల కంటే చాలా మెరుగైనది.

మోడల్ వెల్లడి వెనుక కథ

ఈ మోడల్ లీక్ అయినట్లు మొదట రెడ్డిట్ వినియోగదారులు గుర్తించారు. వారు APIలు మరియు వెబ్ పేజీలలో ఈ మోడల్‌ను కనుగొన్నారు. డీప్‌సీక్-వి3 పనితీరును ఐడర్ మరియు లైవ్‌బెంచ్‌తో సహా వివిధ బెంచ్‌మార్క్‌లలో పరీక్షించారు. ఈ మోడల్ యొక్క ఓపెన్-సోర్స్ వెయిట్‌లు హగ్గింగ్ ఫేస్‌లో అందుబాటులో ఉన్నాయి, అయితే మోడల్ కార్డ్ ఇంకా అందుబాటులోకి రాలేదు.

డీప్‌సీక్-వి3 సాంకేతిక వివరాలు

డీప్‌సీక్-వి3 యొక్క నిర్మాణం, పారామీటర్ పరిమాణం మరియు ఇతర సాంకేతిక వివరాలు ఈ క్రింది విధంగా ఉన్నాయి:

  • పారామీటర్ పరిమాణం: 685 బిలియన్ పారామీటర్లు
  • మోఇ నిర్మాణం: 256 నిపుణులతో మిక్స్‌చర్ ఆఫ్ ఎక్స్‌పర్ట్స్ ఆర్కిటెక్చర్
  • రూటింగ్: సిగ్మోయిడ్ ఫంక్షన్‌ను ఉపయోగించి రూటింగ్, టాప్ 8 నిపుణులను ఎంపిక చేస్తుంది (టాప్-k=8)
  • సందర్భ విండో: 64K సందర్భాన్ని మద్దతు ఇస్తుంది, డిఫాల్ట్‌గా 4K మరియు గరిష్టంగా 8K
  • టోకెన్ జనరేషన్ వేగం: సెకనుకు సుమారు 60 టోకెన్లు

వి2 తో పోలిస్తే కీలకమైన ఆర్కిటెక్చరల్ మార్పులు

డీప్‌సీక్-వి3 మోడల్‌లో వి2 తో పోలిస్తే అనేక కీలకమైన మార్పులు ఉన్నాయి. అవి:

  • గేట్ ఫంక్షన్: వి3 నిపుణుల ఎంపిక కోసం సాఫ్ట్‌మాక్స్ బదులు సిగ్మోయిడ్ ఫంక్షన్‌ను ఉపయోగిస్తుంది. ఇది ఎక్కువ మంది నిపుణుల నుండి ఎంచుకోవడానికి అనుమతిస్తుంది. సాఫ్ట్‌మాక్స్ కొన్నింటికి మాత్రమే ప్రాధాన్యతనిస్తుంది.
  • టాప్-k ఎంపిక: వి3 టాప్-k ఎంపిక కోసం కొత్త నోయాక్స్_టిసి పద్ధతిని ప్రవేశపెట్టింది, దీనికి అదనపు నష్టం అవసరం లేదు. ఇది శిక్షణను సులభతరం చేస్తుంది మరియు ప్రధాన పని యొక్క నష్టాన్ని నేరుగా ఉపయోగించడం ద్వారా సామర్థ్యాన్ని మెరుగుపరుస్తుంది.
  • నిపుణుల స్కోర్ సర్దుబాటు: ఇ_స్కోర్_కరెక్షన్_బయాస్ అనే కొత్త పారామీటర్‌ను జోడించారు, ఇది నిపుణుల ఎంపిక మరియు మోడల్ శిక్షణ సమయంలో మంచి పనితీరును అందిస్తుంది.

వి2 మరియు వి2.5 తో పోలిక

వి3, వి2 తో పోలిస్తే అన్ని పారామీటర్లలో గణనీయమైన మెరుగుదలలను కలిగి ఉంది. వి2.5 తో పోలిస్తే, వి3 ఎక్కువ మంది నిపుణులు, పెద్ద ఇంటర్మీడియట్ లేయర్ పరిమాణాలు మరియు టోకెన్‌కు ఎక్కువ మంది నిపుణులతో సహా కాన్ఫిగరేషన్‌లో వి2.5ను అధిగమించింది.

వినియోగదారు పరీక్షలు మరియు పరిశీలనలు

ప్రారంభ పరీక్షలలో, డెవలపర్ సైమన్ విల్లిసన్ డీప్‌సీక్-వి3ని పరీక్షించారు. ఇది OpenAI యొక్క GPT-4 ఆర్కిటెక్చర్‌పై ఆధారపడి ఉందని గుర్తించారు. ఈ మోడల్‌ను ఇమేజ్ జనరేషన్ కోసం కూడా పరీక్షించారు, సైకిల్ తొక్కుతున్న పెలికాన్ యొక్క SVG చిత్రాన్ని రూపొందించారు. అనేక మంది వినియోగదారులు డీప్‌సీక్-వి3 OpenAI మోడళ్లపై ఆధారపడి ఉందని నివేదించారు. శిక్షణ సమయంలో OpenAI మోడల్ ప్రతిస్పందనలను ఉపయోగించడం దీనికి కారణం కావచ్చు.

సంఘం స్పందన

డీప్‌సీక్-వి3 ఊహించని విడుదల మరియు బలమైన పనితీరు సంఘంలో ఉత్సాహాన్ని రేకెత్తించాయి. కొంతమంది వినియోగదారులు డీప్‌సీక్-వి3 పనితీరు, ముఖ్యంగా ఓపెన్-సోర్స్ డొమైన్‌లో OpenAI మోడల్‌లను అధిగమిస్తుందని నమ్ముతున్నారు.

అదనపు వనరులు

డీప్‌సీక్-వి3 మోడల్ యొక్క ఈ ఆకస్మిక ఆవిష్కరణ మరియు దాని అద్భుతమైన పనితీరు కృత్రిమ మేధ ప్రపంచంలో ఒక ముఖ్యమైన ముందడుగుగా చెప్పవచ్చు. ఈ మోడల్ రాబోయే కాలంలో అనేక ఆవిష్కరణలకు దారి తీస్తుందని ఆశిద్దాం.