Published on

ডিপসিক ভি৩: একটি যুগান্তকারী ওপেন সোর্স মডেল

লেখকগণ
  • avatar
    নাম
    Ajax
    Twitter

ডিপসিক ভি৩: একটি যুগান্তকারী ওপেন সোর্স মডেল

ডিপসিক ভি৩, একটি ৬৭১ বিলিয়ন প্যারামিটারযুক্ত মিক্সচার-অফ-এক্সপার্টস (MoE) মডেল, সম্প্রতি উন্মুক্ত করা হয়েছে এবং এটি কৃত্রিম বুদ্ধিমত্তা (AI) সম্প্রদায়ে আলোড়ন সৃষ্টি করেছে। এই মডেলটি ১৪.৮ ট্রিলিয়ন উচ্চ-মানের টোকেনের ডেটাসেটে প্রশিক্ষিত, যেখানে অনুমানের সময় শুধুমাত্র ৩৭ বিলিয়ন প্যারামিটার সক্রিয় থাকে।

এই মডেলটি ওপেন সোর্স মডেলগুলির মধ্যে অত্যাধুনিক কর্মক্ষমতা (SOTA) অর্জন করেছে, যা Llama 3.1 405B কে ছাড়িয়ে গেছে এবং GPT-4o এবং Claude 3.5 Sonnet-এর মতো শীর্ষ মডেলগুলির সাথে প্রতিদ্বন্দ্বিতা করছে। উল্লেখযোগ্যভাবে, ডিপসিক ভি৩ Claude 3.5 মডেলগুলির তুলনায় অনেক কম খরচে কাজ করে, Claude 3.5 Sonnet-এর খরচের মাত্র ৯%।

সাশ্রয়ী প্রশিক্ষণ

ডিপসিক ভি৩ এর প্রশিক্ষণে ২.৮ মিলিয়ন GPU ঘণ্টার কম সময় লেগেছে, যেখানে Llama 3 405B এর জন্য ৩০.৮ মিলিয়ন GPU ঘণ্টা লেগেছিল। ডিপসিক ভি৩ এর মোট প্রশিক্ষণ খরচ প্রায় ৫.৫৭৬ মিলিয়ন ডলার, যেখানে একটি ৭ বিলিয়ন প্যারামিটারের Llama 2 মডেলের প্রশিক্ষণ খরচ ৭৬০,০০০ ডলার। এই সাশ্রয়ীতার কারণ হল অপ্টিমাইজড অ্যালগরিদম, ফ্রেমওয়ার্ক এবং হার্ডওয়্যার।

OpenAI-এর প্রতিষ্ঠাতা সদস্য কারপাথি উল্লেখ করেছেন যে, ডিপসিক ভি৩ উল্লেখযোগ্যভাবে কম সম্পদ ব্যবহার করে তুলনামূলক কর্মক্ষমতা অর্জন করতে সক্ষম, যা ডেটা এবং অ্যালগরিদমের অপ্টিমাইজেশনের সম্ভাবনা তুলে ধরে।

কর্মক্ষমতা এবং মূল্যায়ন

ডিপসিক ভি৩ জিয়া ইয়ানকুইং এবং মেটার তিয়ান ইয়ুনডংয়ের মতো এআই বিশেষজ্ঞদের কাছ থেকে প্রশংসা পেয়েছে। এটি বিভিন্ন বেঞ্চমার্কে Qwen2.5-72B এবং Llama-3.1-405B এর মতো অন্যান্য ওপেন সোর্স মডেলের চেয়ে ভাল পারফর্ম করে। মডেলটির কর্মক্ষমতা GPT-4o এবং Claude-3.5-Sonnet-এর মতো শীর্ষ ক্লোজড-সোর্স মডেলগুলির সাথে তুলনীয়।

ডিপসিক ভি৩ প্রতি সেকেন্ডে ৬০টি টোকেন তৈরি করতে পারে, যা একটি ৩x গতির উন্নতি। API মূল্যও বেশ প্রতিযোগিতামূলক, যেখানে ইনপুট টোকেনের খরচ প্রতি মিলিয়নে ০.৫-২ RMB এবং আউটপুট টোকেনের খরচ প্রতি মিলিয়নে ৮ RMB। Kagi-এর মূল্যায়ন অনুসারে, ডিপসিক ভি৩ ওপেন সোর্স মডেলগুলির মধ্যে শীর্ষে অবস্থান করছে, যা Sonnet-3.5 এবং GPT-4o-এর খুব কাছাকাছি।

কমিউনিটির অংশগ্রহণ

মডেলটি পরীক্ষার জন্য অফিসিয়াল প্ল্যাটফর্মে উপলব্ধ এবং কোড ডাউনলোডের জন্য ওপেন সোর্স করা হয়েছে। এআই উৎসাহীরা স্ট্যাকড ম্যাক মিনির মতো বিভিন্ন প্ল্যাটফর্মে ডিপসিক ভি৩ নিয়ে পরীক্ষা-নিরীক্ষা করছেন। ডেভেলপাররা মডেলটির জটিল নির্দেশাবলী সহজে বোঝার ক্ষমতা দেখে বিস্মিত হয়েছেন। একজন ডেভেলপার ডিপসিক ভি৩ ব্যবহার করে খুব অল্প সময়ে এআই কোম্পানির লোগো নিয়ে একটি গেম তৈরি করেছেন।

ডিপসিক ভি৩ চালানোর কম খরচের বিষয়টি বিশেষভাবে উল্লেখযোগ্য, যেখানে একজন ব্যবহারকারী জানিয়েছেন যে, প্রতি সেকেন্ডে ৬০টি টোকেন তৈরি করতে এটির দৈনিক খরচ মাত্র ২ ডলার।

প্রশিক্ষণের বিস্তারিত

ডিপসিক ভি৩-এর প্রশিক্ষণ অ্যালগরিদমিক, ফ্রেমওয়ার্ক এবং হার্ডওয়্যার উন্নতির মাধ্যমে অপ্টিমাইজ করা হয়েছে। মডেলটিকে ১৮০,০০০ GPU ঘণ্টায় এক ট্রিলিয়ন টোকেনে প্রশিক্ষণ দেওয়া হয়েছিল, যা দুই মাসেরও কম সময়ে সম্পন্ন হয়েছে। প্রশিক্ষণের মোট খরচ ছিল ২.৭৮৮ মিলিয়ন GPU ঘণ্টা বা ৫.৫৭৬ মিলিয়ন ডলার।

কিছু মূল অপ্টিমাইজেশন:

  • লোড ব্যালেন্সিং: MoE আর্কিটেকচারে প্রতিটি বিশেষজ্ঞের জন্য বায়াস টার্ম সহ একটি নতুন লোড ব্যালেন্সিং কৌশল ব্যবহার করা হয়েছে।
  • মাল্টি-টোকেন প্রেডিকশন (MTP): একটি প্রশিক্ষণ উদ্দেশ্য যা মডেলের কর্মক্ষমতা উন্নত করে এবং স্পেকুলেটিভ ডিকোডিংয়ের মাধ্যমে দ্রুত অনুমান সক্ষম করে।
  • FP8 প্রশিক্ষণ: FP8 মিক্সড-প্রিসিশন প্রশিক্ষণ ব্যবহার করা হয়েছে, যা বৃহৎ আকারের মডেলগুলির জন্য এর কার্যকারিতা প্রমাণ করে।
  • ডুয়ালপাইপ: একটি দক্ষ পাইপলাইন প্যারালাল অ্যালগরিদম যা গণনা এবং যোগাযোগের ওভারল্যাপ করে, যা যোগাযোগের ওভারহেড হ্রাস করে।

MoE আর্কিটেকচারে ২৫৬টি রুটিং বিশেষজ্ঞ এবং ১টি শেয়ার্ড বিশেষজ্ঞ রয়েছে, যেখানে প্রতিটি টোকেন ৮ জন বিশেষজ্ঞকে সক্রিয় করে এবং সর্বাধিক ৪টি নোডে পাঠানো হয়। অনুমানের সময় লোড ব্যালেন্স করার জন্য অতিরিক্ত বিশেষজ্ঞ মোতায়েন করা হয়। মডেলের অনুমানের ক্ষমতা একটি দীর্ঘ চেইন মডেল (ডিপসিক R1) থেকে জ্ঞান আহরণের মাধ্যমে বাড়ানো হয়েছে।

পরীক্ষামূলক ফলাফল

ডিপসিক ভি৩ বিভিন্ন বেঞ্চমার্কে ওপেন সোর্স মডেলগুলির মধ্যে SOTA কর্মক্ষমতা অর্জন করেছে। মডেলটি "need-in-a-haystack" পরীক্ষায় ভাল পারফর্ম করে, যা দীর্ঘ প্রেক্ষাপট থেকে নির্দিষ্ট তথ্য পুনরুদ্ধারের ক্ষমতা প্রদর্শন করে।

রিসোর্স