Published on

டீப்ஸீக்-வி3: ஒரு புரட்சிகரமான திறந்த மூல மாதிரி

ஆசிரியர்கள்
  • avatar
    பெயர்
    Ajax
    Twitter

டீப்ஸீக் V3: ஒரு முன்னோடி திறந்த மூல மாதிரி

டீப்ஸீக் V3, 671 பில்லியன் அளவுருக்கள் கொண்ட நிபுணர்களின் கலவை (MoE) மாதிரி, AI சமூகத்தில் ஒரு பரபரப்பை ஏற்படுத்தியுள்ளது. இது 14.8T உயர்தர டோக்கன்களில் பயிற்சி அளிக்கப்பட்டது, மேலும் அனுமானத்தின் போது 37B அளவுருக்கள் மட்டுமே செயல்படுத்தப்படுகின்றன. இந்த மாதிரி திறந்த மூல மாதிரிகளில் அதிநவீன (SOTA) செயல்திறனை அடைகிறது, லாமா 3.1 405B ஐ விட அதிகமாகவும், GPT-4o மற்றும் Claude 3.5 Sonnet போன்ற சிறந்த மாதிரிகளுக்கு இணையாகவும் உள்ளது.

டீப்ஸீக் V3, கிளாட் 3.5 மாதிரிகளை விட கணிசமாக குறைவான செலவில் கிடைக்கிறது, கிளாட் 3.5 சோனட்டின் விலையில் 9% மட்டுமே செலவாகிறது.

செலவு குறைந்த பயிற்சி

டீப்ஸீக் V3 பயிற்சிக்கு 2.8 மில்லியன் GPU மணிநேரத்திற்கும் குறைவான நேரம் தேவைப்பட்டது, இது லாமா 3 405B இன் 30.8 மில்லியன் GPU மணிநேரத்துடன் ஒப்பிடும்போது மிகவும் குறைவு. டீப்ஸீக் V3 க்கான மொத்த பயிற்சி செலவு சுமார் 5.576மில்லியன்ஆகும்,அதேநேரத்தில்7Bலாமா2மாதிரியைபயிற்சிசெய்ய5.576 மில்லியன் ஆகும், அதே நேரத்தில் 7B லாமா 2 மாதிரியை பயிற்சி செய்ய 760,000 செலவாகும். இந்த செலவு குறைந்த திறன் மேம்படுத்தப்பட்ட அல்காரிதம்கள், கட்டமைப்புகள் மற்றும் வன்பொருள்களுக்கு காரணமாகும்.

OpenAI இன் நிறுவன உறுப்பினரான கார்பத்தி, டீப்ஸீக் V3 மிகக் குறைந்த வளங்களைக் கொண்டு ஒப்பிடக்கூடிய செயல்திறனை அடைவதாகக் குறிப்பிட்டார், இது தரவு மற்றும் அல்காரிதம்களில் மேம்படுத்துவதற்கான சாத்தியத்தை எடுத்துக்காட்டுகிறது.

செயல்திறன் மற்றும் மதிப்பீடு

டீப்ஸீக் V3 ஜியா யாங்சிங் மற்றும் மெட்டாவின் தியான் யுண்டோங் போன்ற AI நிபுணர்களிடமிருந்து பாராட்டுகளைப் பெற்றுள்ளது. இது பல்வேறு அளவுகோல்களில் Qwen2.5-72B மற்றும் Llama-3.1-405B போன்ற பிற திறந்த மூல மாதிரிகளை விட சிறப்பாக செயல்படுகிறது. இந்த மாதிரியின் செயல்திறன் GPT-4o மற்றும் Claude-3.5-Sonnet போன்ற சிறந்த மூடிய மூல மாதிரிகளுக்கு ஒப்பிடத்தக்கது.

டீப்ஸீக் V3 ஒரு வினாடிக்கு 60 டோக்கன்களை உருவாக்குகிறது, இது 3 மடங்கு வேக மேம்பாடு ஆகும். API விலை நிர்ணயமும் மிகவும் போட்டித்தன்மை வாய்ந்தது, உள்ளீட்டு டோக்கன்கள் ஒரு மில்லியனுக்கு 0.5-2 RMB செலவாகும், மேலும் வெளியீட்டு டோக்கன்கள் ஒரு மில்லியனுக்கு 8 RMB செலவாகும். காகியின் மதிப்பீடு, டீப்ஸீக் V3 ஐ திறந்த மூல மாதிரிகளில் முதலிடத்தில் வைத்துள்ளது, இது சோனெட்-3.5 மற்றும் GPT-4o க்கு மிக அருகில் உள்ளது.

சமூக ஈடுபாடு

இந்த மாதிரி அதிகாரப்பூர்வ தளத்தில் சோதனைக்கு கிடைக்கிறது, பதிவிறக்கம் செய்ய குறியீடு திறந்த மூலமாக உள்ளது. AI ஆர்வலர்கள் டீப்ஸீக் V3 ஐ சோதனை செய்து வருகின்றனர், இதில் அடுக்கி வைக்கப்பட்ட மேக் மினிகளில் இயக்குவதும் அடங்கும். டெவலப்பர்கள் தெளிவான விளக்கங்கள் இல்லாமல் சிக்கலான வழிமுறைகளைப் புரிந்துகொள்ளும் மாதிரியின் திறனைக் கண்டு ஆச்சரியப்படுகிறார்கள்.

ஒரு டெவலப்பர் டீப்ஸீக் V3 ஐப் பயன்படுத்தி குறுகிய காலத்தில் AI நிறுவனங்களின் லோகோக்களைக் கொண்டு ஒரு விளையாட்டை உருவாக்கினார். டீப்ஸீக் V3 ஐ இயக்குவதற்கான குறைந்த செலவு எடுத்துக்காட்டப்பட்டுள்ளது, ஒரு பயனர் ஒரு வினாடிக்கு 60 டோக்கன்களில் இயக்க ஒரு நாளைக்கு $2 மட்டுமே செலவாகும் என்று குறிப்பிட்டார்.

பயிற்சி விவரங்கள்

டீப்ஸீக் V3 இன் பயிற்சி அல்காரிதமிக், கட்டமைப்பு மற்றும் வன்பொருள் மேம்பாடுகள் மூலம் மேம்படுத்தப்பட்டது. இந்த மாதிரி ஒரு டிரில்லியன் டோக்கன்களில் 180,000 GPU மணிநேரத்தில் பயிற்சி அளிக்கப்பட்டது, இது இரண்டு மாதங்களுக்குள் முன் பயிற்சியை நிறைவு செய்தது. மொத்த பயிற்சி செலவு 2.788 மில்லியன் GPU மணிநேரம் அல்லது $5.576 மில்லியன் ஆகும்.

முக்கிய மேம்பாடுகள் பின்வருமாறு:

  • சுமை சமநிலை: MoE கட்டமைப்பில் உள்ள ஒவ்வொரு நிபுணருக்கும் சார்பு விதிமுறைகளுடன் ஒரு புதிய சுமை சமநிலைப்படுத்தும் உத்தி.
  • மல்டி-டோக்கன் கணிப்பு (MTP): ஒரு பயிற்சி நோக்கம், இது மாதிரி செயல்திறனை மேம்படுத்துகிறது மற்றும் ஊக குறியாக்கம் மூலம் வேகமான அனுமானத்தை செயல்படுத்துகிறது.
  • FP8 பயிற்சி: FP8 கலப்பு-துல்லிய பயிற்சியின் பயன்பாடு, பெரிய அளவிலான மாதிரிகளுக்கு அதன் சாத்தியத்தை நிரூபிக்கிறது.
  • டூயல் பைப்: கணக்கீடு மற்றும் தகவல் தொடர்புகளை ஒன்றுடன் ஒன்று இணைக்கும் ஒரு திறமையான பைப்லைன் இணை அல்காரிதம், தகவல் தொடர்பு சுமையைக் குறைக்கிறது.

MoE கட்டமைப்பு 256 ரூட்டிங் நிபுணர்களையும் 1 பகிரப்பட்ட நிபுணரையும் கொண்டுள்ளது, ஒவ்வொரு டோக்கனும் 8 நிபுணர்களை செயல்படுத்துகிறது மற்றும் அதிகபட்சம் 4 கணுக்களுக்கு அனுப்பப்படுகிறது. அனுமானத்தின் போது சுமையை சமப்படுத்த அதிகப்படியான நிபுணர்கள் பயன்படுத்தப்படுகிறார்கள். மாதிரியின் அனுமான திறன்கள் நீண்ட சங்கிலி மாதிரியிலிருந்து (டீப்ஸீக் R1) அறிவை பிரித்தெடுப்பதன் மூலம் மேம்படுத்தப்பட்டன.

சோதனை முடிவுகள்

டீப்ஸீக் V3 பல்வேறு அளவுகோல்களில் திறந்த மூல மாதிரிகளில் SOTA செயல்திறனை அடைகிறது. இந்த மாதிரி "வைக்கோல் போரில் ஊசி" சோதனைகளில் சிறப்பாக செயல்படுகிறது, இது நீண்ட சூழல்களில் இருந்து குறிப்பிட்ட தகவல்களை மீட்டெடுக்கும் திறனை நிரூபிக்கிறது.

ஆதாரங்கள்