- Published on
DEEPSEEK-এর নতুন মডেল অপ্রত্যাশিতভাবে প্রকাশ: প্রোগ্রামিং বেঞ্চমার্কে Claude 3.5 Sonnet-কে ছাড়িয়ে গেছে
ডিপসিক-ভি3: প্রোগ্রামিং বেঞ্চমার্কে নতুন দিগন্ত
ডিপসিক-ভি3, একটি অপ্রত্যাশিতভাবে প্রকাশিত নতুন লার্জ ল্যাঙ্গুয়েজ মডেল (LLM), প্রোগ্রামিং বেঞ্চমার্কে উল্লেখযোগ্য উন্নতি দেখিয়েছে। এটি Claude 3.5 Sonnet-কে এইডার মাল্টিলিঙ্গুয়াল প্রোগ্রামিং বেঞ্চমার্কে ছাড়িয়ে গেছে। বর্তমানে, ডিপসিক-ভি3 লাইভবেঞ্চ মূল্যায়ন প্ল্যাটফর্মে সবচেয়ে শক্তিশালী ওপেন-সোর্স এলএলএম হিসাবে বিবেচিত হচ্ছে। এই মডেলের কর্মক্ষমতা এবং প্রযুক্তিগত দিকগুলো নিয়ে আলোচনা করা হলো:
মূল বিষয়সমূহ
- ডিপসিক-ভি3, একটি অপ্রকাশিত মডেল, যা লিক হয়ে যাওয়ার পরে অসাধারণ কর্মক্ষমতা দেখাচ্ছে।
- এটি এইডার মাল্টিলিঙ্গুয়াল প্রোগ্রামিং বেঞ্চমার্কে Claude 3.5 Sonnet-কে ছাড়িয়ে গেছে।
- ডিপসিক-ভি3 বর্তমানে লাইভবেঞ্চ মূল্যায়ন প্ল্যাটফর্মে সবচেয়ে শক্তিশালী ওপেন-সোর্স এলএলএম।
- মডেলের আর্কিটেকচারে 685B প্যারামিটার বিশিষ্ট MoE কাঠামো রয়েছে, যা আগের সংস্করণগুলোর তুলনায় উল্লেখযোগ্য উন্নতি দেখায়।
পটভূমি
রেডিট ব্যবহারকারীরা প্রথম এই মডেলের লিক হওয়ার খবর জানান, যেখানে তারা API এবং ওয়েব পেজে মডেলটি খুঁজে পান। ডিপসিক-ভি3 এর কর্মক্ষমতা এইডার এবং লাইভবেঞ্চ সহ বিভিন্ন বেঞ্চমার্কে মূল্যায়ন করা হয়েছে। মডেলের ওপেন-সোর্স ওয়েটগুলি ইতিমধ্যে Hugging Face-এ পাওয়া যাচ্ছে, যদিও মডেল কার্ড এখনও উপলব্ধ নয়।
ডিপসিক-ভি3 এর কারিগরি বিবরণ
মডেল আর্কিটেকচার
- প্যারামিটার সংখ্যা: 685 বিলিয়ন
- MoE কাঠামো: 256 জন বিশেষজ্ঞের সাথে মিশ্রণ কাঠামো (Mixture of Experts)
- রাউটিং: সিগময়েড ফাংশন ব্যবহার করে রাউটিং, যেখানে সেরা 8 জন বিশেষজ্ঞকে নির্বাচন করা হয় (Top-k=8)।
- কনটেক্সট উইন্ডো: 64K কনটেক্সট সমর্থন করে, যেখানে ডিফল্ট 4K এবং সর্বোচ্চ 8K।
- টোকেন জেনারেশন স্পিড: প্রতি সেকেন্ডে প্রায় 60টি টোকেন।
ভি২ এর তুলনায় মূল স্থাপত্য পরিবর্তন
- গেট ফাংশন: ভি৩ তে বিশেষজ্ঞ নির্বাচনের জন্য সফটম্যাক্সের পরিবর্তে সিগময়েড ফাংশন ব্যবহার করা হয়েছে। এটি মডেলটিকে আরও বেশি সংখ্যক বিশেষজ্ঞ থেকে বেছে নিতে সাহায্য করে, যেখানে সফটম্যাক্স কয়েকটি বিশেষজ্ঞের প্রতি পক্ষপাত দেখায়।
- টপ-কে সিলেকশন: ভি৩ তে টপ-কে সিলেকশনের জন্য একটি নতুন noaux_tc পদ্ধতি চালু করা হয়েছে, যার জন্য কোনো সহায়ক ক্ষতির প্রয়োজন হয় না। এটি প্রশিক্ষণকে সহজ করে এবং প্রধান কাজের ক্ষতি ফাংশন ব্যবহার করে কার্যকারিতা উন্নত করে।
- বিশেষজ্ঞ স্কোর সমন্বয়: বিশেষজ্ঞ স্কোর সমন্বয় করার জন্য একটি নতুন প্যারামিটার, e_score_correction_bias যোগ করা হয়েছে। এটি বিশেষজ্ঞ নির্বাচন এবং মডেল প্রশিক্ষণের সময় আরও ভালো কর্মক্ষমতা প্রদান করে।
ভি২ এবং ভি২.৫ এর সাথে তুলনা
- ভি৩ বনাম ভি২: ভি৩ মূলত ভি২ এর একটি উন্নত সংস্করণ, যেখানে সমস্ত প্যারামিটারে উল্লেখযোগ্য উন্নতি হয়েছে।
- ভি৩ বনাম ভি২.৫: ভি৩ কনফিগারেশনের দিক থেকে ভি২.৫ কে ছাড়িয়ে গেছে, যেখানে আরও বেশি বিশেষজ্ঞ, বৃহত্তর মধ্যবর্তী স্তর এবং প্রতি টোকেনে আরও বেশি বিশেষজ্ঞ রয়েছে।
ব্যবহারকারীর পরীক্ষা এবং পর্যবেক্ষণ
প্রাথমিক পরীক্ষা
সিমোন উইলিসন, একজন ডেভেলপার, ডিপসিক-ভি3 পরীক্ষা করে দেখেছেন যে এটি নিজেকে ওপেনএআই-এর জিপিটি-৪ আর্কিটেকচারের উপর ভিত্তি করে তৈরি বলে দাবি করছে। মডেলটি একটি পেলিকানের সাইকেল চালানোর SVG ছবি তৈরি করে ইমেজ জেনারেশনের জন্যও পরীক্ষা করা হয়েছিল।
অপ্রত্যাশিত স্ব-শনাক্তকরণ
একাধিক ব্যবহারকারী রিপোর্ট করেছেন যে ডিপসিক-ভি3 নিজেকে ওপেনএআই মডেলের উপর ভিত্তি করে তৈরি বলে দাবি করেছে, সম্ভবত প্রশিক্ষণের সময় ওপেনএআই মডেলের প্রতিক্রিয়া ব্যবহারের কারণে।
কমিউনিটির প্রতিক্রিয়া
ডিপসিক-ভি3 এর অপ্রত্যাশিত প্রকাশ এবং শক্তিশালী কর্মক্ষমতা কমিউনিটিতে উত্তেজনা সৃষ্টি করেছে। কিছু ব্যবহারকারী মনে করেন যে ডিপসিক-ভি3 এর কর্মক্ষমতা ওপেনএআই মডেলগুলির চেয়েও বেশি, বিশেষ করে ওপেন-সোর্স ডোমেনে।
অতিরিক্ত উৎস
ডিপসিক-ভি3 এর এই অপ্রত্যাশিত প্রকাশ এবং কর্মক্ষমতা ওপেন সোর্স এআই কমিউনিটিতে নতুন সম্ভাবনা নিয়ে এসেছে। মডেলটির আরও উন্নয়ন এবং ব্যবহার ভবিষ্যতে AI গবেষণার জন্য নতুন পথ খুলে দেবে।