- Published on
டீப்ஸீக்கின் புதிய மாதிரி எதிர்பாராதவிதமாக வெளியானது: நிரலாக்க அளவுகோல்கள் கிளாட் 3.5 சோனெட்டை விட அதிகமாக உள்ளன
டீப்ஸீக்-வி3 இன் எதிர்பாராத வெளியீடு
சமீபத்தில், டீப்ஸீக்-வி3 என்ற புதிய மொழி மாதிரி எதிர்பாராத விதமாக வெளியாகி, தொழில்நுட்ப உலகில் பெரும் பரபரப்பை ஏற்படுத்தியுள்ளது. இந்த மாடல், கிளாட் 3.5 சோனெட் மாடலை விட அதிக நிரலாக்க செயல்திறன் கொண்டது என நிரூபிக்கப்பட்டுள்ளது. இது, குறிப்பாக, எய்டெர் பன்மொழி நிரலாக்க அளவுகோலில் கிளாட் 3.5 சோனெட்டை முந்தியுள்ளது. லைவ்பெஞ்ச் மதிப்பீட்டு தளத்தில், டீப்ஸீக்-வி3 தற்போது வலுவான திறந்த மூல பெரிய மொழி மாதிரியாக உள்ளது. இந்த மாடலின் கட்டமைப்பு 685 பில்லியன் அளவுருக்களைக் கொண்ட MoE (Mixture of Experts) கட்டமைப்பாகும், இது முந்தைய பதிப்புகளை விட மேம்பட்டது.
பின்னணித் தகவல்
ரெடிட் பயனர்கள் APIகள் மற்றும் வலைப்பக்கங்களில் இந்த மாடல் இருப்பதை முதலில் கண்டுபிடித்தனர். டீப்ஸீக்-வி3 மாடலின் செயல்திறன் எய்டெர் மற்றும் லைவ்பெஞ்ச் போன்ற பல்வேறு அளவுகோல்களில் மதிப்பிடப்பட்டுள்ளது. இந்த மாடலின் திறந்த மூல எடைகள் ஹக்கிங் ஃபேஸில் கிடைக்கின்றன, ஆனால் மாதிரி அட்டை இன்னும் கிடைக்கவில்லை.
டீப்ஸீக்-வி3 இன் தொழில்நுட்ப விவரங்கள்
மாதிரி கட்டமைப்பு
- அளவுரு அளவு: 685 பில்லியன் அளவுருக்கள்
- MoE கட்டமைப்பு: 256 நிபுணர்களைக் கொண்ட நிபுணர்களின் கலவை கட்டமைப்பு
- வழித்தடம்: சிக்மாய்டு செயல்பாட்டைப் பயன்படுத்தி, முதல் 8 நிபுணர்களைத் தேர்ந்தெடுக்கும் (Top-k=8)
- சூழல் சாளரம்: 64K சூழலை ஆதரிக்கிறது, இயல்புநிலை 4K மற்றும் அதிகபட்சம் 8K
- டோக்கன் உருவாக்கும் வேகம்: வினாடிக்கு சுமார் 60 டோக்கன்கள்
வி2 உடன் ஒப்பிடும்போது முக்கிய கட்டடக்கலை மாற்றங்கள்
- கேட் செயல்பாடு: வி3 ஆனது நிபுணர் தேர்வுக்கு சாஃப்ட்மேக்ஸ்க்கு பதிலாக சிக்மாய்டு செயல்பாட்டைப் பயன்படுத்துகிறது. இது மாடலை அதிக நிபுணர்களிடமிருந்து தேர்வு செய்ய அனுமதிக்கிறது. சாஃப்ட்மேக்ஸ் சிலவற்றையே விரும்பும்.
- டாப்-கே தேர்வு: வி3 ஆனது டாப்-கே தேர்வுக்கு புதிய noaux_tc முறையை அறிமுகப்படுத்துகிறது, இது துணை இழப்பு தேவையில்லை. இது பயிற்சி மற்றும் செயல்திறனை எளிதாக்குகிறது.
- நிபுணர் மதிப்பெண் சரிசெய்தல்: e_score_correction_bias என்ற ஒரு புதிய அளவுரு நிபுணர் மதிப்பெண்களை சரிசெய்ய சேர்க்கப்பட்டுள்ளது, இது நிபுணர் தேர்வு மற்றும் மாதிரி பயிற்சியின் போது சிறந்த செயல்திறனை அளிக்கிறது.
வி2 மற்றும் வி2.5 உடன் ஒப்பீடு
- வி3 vs வி2: வி3 என்பது வி2 இன் மேம்படுத்தப்பட்ட பதிப்பாகும், இது அனைத்து அளவுருக்களிலும் குறிப்பிடத்தக்க முன்னேற்றங்களைக் கொண்டுள்ளது.
- வி3 vs வி2.5: வி3 அதிக நிபுணர்கள், பெரிய இடைநிலை அடுக்கு அளவுகள் மற்றும் டோக்கனுக்கு அதிக நிபுணர்கள் உட்பட, கட்டமைப்பில் வி2.5 ஐ விட அதிகமாக உள்ளது.
பயனர் சோதனை மற்றும் அவதானிப்புகள்
ஆரம்ப சோதனைகள்
சைமன் வில்லிசன் என்ற டெவலப்பர் டீப்ஸீக்-வி3 ஐ சோதித்தபோது, அது ஓப்பன்ஏஐயின் ஜிபிடி-4 கட்டமைப்பை அடிப்படையாகக் கொண்டது என்று அடையாளம் கண்டது. இந்த மாடல், ஒரு பெலிகன் மிதிவண்டியில் சவாரி செய்வது போன்ற SVG படத்தையும் உருவாக்கியது.
எதிர்பாராத சுய-அடையாளம்
பல பயனர்கள் டீப்ஸீக்-வி3 ஓப்பன்ஏஐ மாடல்களை அடிப்படையாகக் கொண்டது என்று அடையாளம் காட்டியதாகத் தெரிவித்தனர். இது பயிற்சி நேரத்தில் ஓப்பன்ஏஐ மாடல் பதில்களைப் பயன்படுத்தியதன் காரணமாக இருக்கலாம்.
சமூகத்தின் எதிர்வினை
டீப்ஸீக்-வி3 இன் எதிர்பாராத வெளியீடு மற்றும் சிறந்த செயல்திறன் சமூகத்தில் உற்சாகத்தை ஏற்படுத்தியுள்ளது. சில பயனர்கள், குறிப்பாக திறந்த மூல களத்தில், டீப்ஸீக்-வி3 இன் செயல்திறன் ஓப்பன்ஏஐயின் மாடல்களை விட அதிகமாக இருப்பதாக நம்புகிறார்கள்.