Published on

মেটার BLT আর্কিটেকচার টোকেনাইজেশন দূর করে

লেখকগণ
  • avatar
    নাম
    Ajax
    Twitter

ভূমিকা

মেটা, শিকাগো বিশ্ববিদ্যালয় এবং অন্যান্য প্রতিষ্ঠানের সহযোগীদের সাথে সম্প্রতি "বাইট ল্যাটেন্ট ট্রান্সফরমার: প্যাচগুলি টোকেনের চেয়ে ভাল স্কেল করে" শীর্ষক একটি যুগান্তকারী গবেষণা পত্র প্রকাশ করেছে। এই গবেষণাটি বিশেষ করে হ্যাকার নিউজের মতো প্ল্যাটফর্মে আলোচনার জন্ম দিয়েছে। মূল ধারণাটি ভাষা মডেলগুলির একটি নতুন পদ্ধতির চারপাশে ঘোরে যা ঐতিহ্যবাহী টোকেনাইজেশন প্রক্রিয়াটিকে প্রতিস্থাপন করতে পারে। কিছু গবেষক টোকেনাইজার থেকে সরে যেতে আগ্রহ প্রকাশ করার সাথে সাথে উত্তেজনা স্পষ্ট। তবে, এই নতুন প্রযুক্তিটিকে সংহত করার সম্ভাব্যতা নিয়েও উদ্বেগ রয়েছে, কারণ টোকেনাইজেশন অনেক বিদ্যমান মডেলের ভিত্তি তৈরি করে।

টোকেনাইজেশনের সমস্যা

ঐতিহ্যবাহী ভাষা মডেলগুলি ডেটা প্রসেস করার জন্য টোকেনাইজেশনের উপর নির্ভর করে। তবে, এই পদ্ধতির বেশ কিছু সীমাবদ্ধতা রয়েছে। এর মধ্যে রয়েছে:

  • একটি নির্দিষ্ট শব্দভাণ্ডার আকার, যা সমস্ত ভাষা বা প্রসঙ্গের জন্য পর্যাপ্ত নাও হতে পারে।
  • বহুভাষিক বা গোলমাল ডেটা প্রক্রিয়াকরণে অদক্ষতা।
  • কম্প্রেশন হিউরিস্টিকসের কারণে পক্ষপাতের প্রবর্তন।

বাইট ল্যাটেন্ট ট্রান্সফরমার (BLT)

গবেষণাটি বাইট ল্যাটেন্ট ট্রান্সফরমার (BLT) কে একটি সমাধান হিসাবে উপস্থাপন করে যা প্রচলিত টোকেনাইজেশন পদ্ধতিকে চ্যালেঞ্জ করে। টোকেন নিয়ে কাজ করার পরিবর্তে, BLT সরাসরি কাঁচা বাইট স্ট্রিম মডেল করে। এটি গতিশীলভাবে তাদের এনট্রপির উপর ভিত্তি করে এই বাইটগুলিকে প্যাচগুলিতে গোষ্ঠীভুক্ত করে, কম্পিউটেশনাল দক্ষতা অপ্টিমাইজ করে। এর মানে হল যে BLT একটি স্ট্যাটিক শব্দভাণ্ডারের উপর নির্ভর না করে সরাসরি মূল বাইট ডেটা থেকে শিখতে পারে। BLT আরও কার্যকরভাবে বিভিন্ন এবং গোলমাল ইনপুটগুলি পরিচালনা করার জন্য ডিজাইন করা হয়েছে।

BLT এর মূল বৈশিষ্ট্যগুলির মধ্যে রয়েছে:

  • এনট্রপি-ভিত্তিক প্যাচিং: BLT গতিশীলভাবে তাদের তথ্যের জটিলতার উপর ভিত্তি করে বাইটগুলিকে প্যাচগুলিতে গোষ্ঠীভুক্ত করে। এই পদ্ধতিটি উচ্চ-এনট্রপি (জটিল) অঞ্চলে আরও বেশি কম্পিউটেশনাল রিসোর্স বরাদ্দ করে এবং কম-এনট্রপি অঞ্চলে রিসোর্স সাশ্রয় করে।
  • দক্ষ স্কেলিং: BLT প্যাচের আকার অপ্টিমাইজ করে এবং লাইটওয়েট স্থানীয় মডেল ব্যবহার করে, LLaMA-এর মতো টোকেন-ভিত্তিক মডেলগুলির সাথে তুলনীয় বা তার চেয়ে ভাল পারফরম্যান্স অর্জন করে। এটি অনুমানের সময় কম্পিউটেশনাল খরচও ৫০% পর্যন্ত কমিয়ে দেয়।
  • দৃঢ়তা এবং নমনীয়তা: BLT এমন কাজগুলিতে ব্যতিক্রমী কর্মক্ষমতা প্রদর্শন করে যার জন্য অক্ষর-স্তরের বোঝার প্রয়োজন, গোলমাল ইনপুটগুলি পরিচালনা করা, বা দীর্ঘ-লেজ ডেটাতে সাধারণীকরণ করা, অনেক বেঞ্চমার্কে টোকেন-ভিত্তিক আর্কিটেকচারকে ছাড়িয়ে যায়।

BLT আর্কিটেকচার

BLT আর্কিটেকচারে রয়েছে:

  1. একটি বৃহৎ গ্লোবাল অটোরেগ্রেসিভ ভাষা মডেল যা প্যাচ উপস্থাপনার উপর কাজ করে।
  2. দুটি ছোট স্থানীয় মডেল যা বাইট সিকোয়েন্সগুলিকে প্যাচগুলিতে এনকোড করে এবং প্যাচ উপস্থাপনাগুলিকে বাইটে ডিকোড করে।

গ্লোবাল ল্যাটেন্ট ট্রান্সফরমার মডেল

গ্লোবাল ল্যাটেন্ট ট্রান্সফরমার একটি অটোরেগ্রেসিভ মডেল যা ইনপুট প্যাচ উপস্থাপনাগুলিকে আউটপুট প্যাচ উপস্থাপনাগুলিতে ম্যাপ করে। এটি একটি ব্লক কজাল অ্যাটেনশন মাস্ক ব্যবহার করে।

স্থানীয় এনকোডার

স্থানীয় এনকোডার মডেল একটি লাইটওয়েট ট্রান্সফরমার-ভিত্তিক মডেল যা দক্ষতার সাথে ইনপুট বাইট সিকোয়েন্সগুলিকে অভিব্যক্তিপূর্ণ প্যাচ উপস্থাপনাগুলিতে ম্যাপ করে। প্রতিটি ট্রান্সফরমার স্তরের পরে ক্রস-অ্যাটেনশন স্তর রয়েছে, বাইট উপস্থাপনাগুলিকে প্যাচ উপস্থাপনাগুলিতে পুল করে।

  • বাইট এম্বেডিং: ইনপুট বাইট সিকোয়েন্সগুলি একটি ম্যাট্রিক্স ব্যবহার করে এম্বেড করা হয়।
  • ট্রান্সফরমার স্তর: ট্রান্সফরমার এবং ক্রস-অ্যাটেনশন স্তরগুলির একটি সিরিজ এম্বেডিংগুলিকে প্যাচ উপস্থাপনাগুলিতে রূপান্তর করে। এর মধ্যে একটি স্থানীয় ব্লক কজাল অ্যাটেনশন মাস্ক অন্তর্ভুক্ত রয়েছে।

স্থানীয় ডিকোডার

স্থানীয় ডিকোডার আরেকটি লাইটওয়েট ট্রান্সফরমার-ভিত্তিক মডেল। এটি গ্লোবাল প্যাচ উপস্থাপনাগুলিকে মূল বাইটে ডিকোড করে। এটি ক্রস-অ্যাটেনশন এবং ট্রান্সফরমার স্তরগুলির একটি সিরিজ ব্যবহার করে। এটি পূর্বে ডিকোড করা বাইটের উপর ভিত্তি করে মূল বাইট সিকোয়েন্সগুলির পূর্বাভাস দেওয়ার অনুমতি দেয়।

স্কেলিং প্রবণতা

গবেষণাটি আরও BLT মডেল বিকাশের জন্য বাইট-স্তরের মডেলগুলির স্কেলিং প্রবণতাগুলি অন্বেষণ করে। এর মধ্যে রয়েছে:

  • গণনামূলকভাবে অনুকূল প্রশিক্ষণ স্কিমগুলির প্রবণতাগুলির তুলনা করা।
  • বৃহৎ ডেটাসেটে 8B প্যারামিটার মডেলগুলিকে প্রশিক্ষণ দেওয়া এবং ডাউনস্ট্রিম কাজগুলিতে কর্মক্ষমতা মূল্যায়ন করা।
  • অনুমান খরচ-নিয়ন্ত্রিত সেটিংসে স্কেলিং প্রবণতা পরিমাপ করা।

প্যারামিটার-ম্যাচড কম্পিউটেশনালি অপটিমাল স্কেলিং প্রবণতা

Llama 2 ডেটাসেট ব্যবহার করে, গবেষকরা বিভিন্ন আকারের (1B থেকে 8B প্যারামিটার) বিভিন্ন BPE এবং BLT মডেলগুলিকে গণনামূলকভাবে অনুকূল সেটিংসের সাথে প্রশিক্ষণ দিয়েছেন। প্রশিক্ষণের ফ্লপগুলি ভাষা মডেলিং কর্মক্ষমতার বিপরীতে প্লট করা হয়েছিল। BLT মডেলগুলি হয় BPE মডেলগুলির সাথে মিলেছে বা তার চেয়ে ভাল পারফর্ম করেছে এবং মডেলের আকার এবং ফ্লপ বাড়ার সাথে সাথে এই প্রবণতা অব্যাহত ছিল।

BLT-1T ডেটাসেট

একটি বৃহত্তর উচ্চ-মানের ডেটাসেট, BLT-1T-এ একটি 8B প্যারামিটার BLT মডেল প্রশিক্ষিত হয়েছিল। ফলাফলে দেখা গেছে যে BLT-এনট্রপি মডেলটি ৭টি কাজের মধ্যে ৪টিতে Llama 3 মডেলকে ছাড়িয়ে গেছে। এই উন্নতিটি ডায়নামিক প্যাচগুলি ব্যবহার করে এবং টোকেনের পরিবর্তে বাইট-স্তরের তথ্য মডেলিং করে প্রশিক্ষণের গণনার আরও ভাল ব্যবহারের জন্য দায়ী করা হয়।

প্যাচ স্কেলিং

গবেষণায় হাইলাইট করা হয়েছে যে প্যাচগুলি টোকেনের চেয়ে সহজে স্কেল করে। প্যাচ দৈর্ঘ্যের স্কেলিংয়ের উপর অধ্যয়ন দেখায় যে প্যাচ-ভিত্তিক BLT আর্কিটেকচার প্যাচ এবং মডেল উভয় আকার বাড়িয়ে আরও ভাল স্কেলিং প্রবণতা অর্জন করতে পারে।

বাইট মডেলিংয়ের মাধ্যমে দৃঢ়তা

অক্ষর-স্তরের কাজ

BLT মডেলটি গোলমালযুক্ত HellaSwag পরীক্ষায় চমৎকার দৃঢ়তা প্রদর্শন করে, টোকেনাইজার-ভিত্তিক মডেলগুলিকে গড়ে ৮ শতাংশ পয়েন্ট ছাড়িয়ে যায়। এটি বৃহত্তর ডেটাসেটে প্রশিক্ষিত Llama 3.1 মডেলকেও ছাড়িয়ে গেছে।

কম-রিসোর্স ভাষা

BLT জনপ্রিয় ভাষার জোড়ায় Llama 3-এর সাথে তুলনামূলকভাবে বা সামান্য ভালো পারফর্ম করে। তবে, এটি কম-রিসোর্স ভাষার জোড়ায় Llama 3 কে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়, যা দীর্ঘ-লেজ বাইট সিকোয়েন্সগুলিতে সাধারণীকরণে বাইট মডেলিংয়ের কার্যকারিতা প্রদর্শন করে।

Llama 3 থেকে BLT

লেখকরা একটি কর্মপ্রবাহ নিয়ে গবেষণা করেছেন যেখানে BLT মডেলগুলি প্রাক-প্রশিক্ষিত টোকেনাইজার-ভিত্তিক মডেলগুলি ব্যবহার করতে পারে। এটি একটি প্রাক-প্রশিক্ষিত Llama 3.1 দিয়ে BLT-এর গ্লোবাল টোকেনাইজার প্যারামিটারগুলি শুরু করে করা হয়েছিল। ফলাফলে দেখা গেছে যে Llama 3.1 দিয়ে শুরু করা BLT একই সংখ্যক ফ্লপ দিয়ে প্রশিক্ষিত Llama 3 এবং বেসলাইন BLT মডেল উভয়কেই ছাড়িয়ে গেছে।