Published on

গুগলের টাইটান আর্কিটেকচার ট্রান্সফরমার মেমরি বাধা ভেঙ্গেছে

লেখকগণ
  • avatar
    নাম
    Ajax
    Twitter

গুগল থেকে নতুন আর্কিটেকচার টাইটান

প্রযুক্তি বিশ্বে গুগলের নতুন আর্কিটেকচার টাইটান নিয়ে আলোচনা চলছে। এটি বিশেষ করে ট্রান্সফরমার মডেলের মেমরি ব্যবস্থাপনার সীমাবদ্ধতা দূর করার জন্য ডিজাইন করা হয়েছে। এই নতুন আর্কিটেকচারটি ট্রান্সফরমারের সম্ভাব্য উত্তরসূরি হিসেবে উল্লেখযোগ্য মনোযোগ আকর্ষণ করছে, বিশেষ করে গুগলের একটি দল দ্বারা এর উন্নয়নের কারণে।

বিদ্যমান মডেলগুলিতে মেমরির চ্যালেঞ্জ

ঐতিহ্যবাহী LSTM এবং ট্রান্সফরমারের মতো মডেলগুলি উদ্ভাবনী হলেও, মানুষের মতো মেমরি অনুকরণে কিছু চ্যালেঞ্জের সম্মুখীন হয়। এই চ্যালেঞ্জগুলো হলো:

  • সীমিত ক্ষমতা: ডেটা প্রায়শই একটি নির্দিষ্ট আকারের লুকানো অবস্থায় সংকুচিত হয়, যা ধরে রাখা তথ্যের পরিমাণকে সীমাবদ্ধ করে।
  • গণনামূলক ওভারহেড: যদিও দীর্ঘ-পরিসরের নির্ভরতা ক্যাপচার করতে সক্ষম, তবে সিকোয়েন্সের দৈর্ঘ্যের সাথে সাথে গণনার খরচ দ্বিঘাতভাবে বৃদ্ধি পায়, যা খুব দীর্ঘ সিকোয়েন্সের জন্য এটিকে অকার্যকর করে তোলে।
  • প্রশিক্ষণ ডেটার উপর অতিরিক্ত নির্ভরতা: কেবল প্রশিক্ষণ ডেটা মুখস্থ করা সবসময় বাস্তব-বিশ্বের অ্যাপ্লিকেশনে কাজে আসে না, যেখানে পরীক্ষার ডেটা প্রশিক্ষণ বিতরণের বাইরে চলে যেতে পারে।

টাইটানের পদ্ধতি: একটি নিউরো-অনুপ্রাণিত মেমরি মডিউল

টাইটান দল একটি ভিন্ন পদ্ধতি গ্রহণ করেছে, যেখানে নিউরাল নেটওয়ার্কের প্যারামিটারগুলিতে তথ্য এনকোড করার চেষ্টা করা হয়েছে। তারা একটি অনলাইন মেটা-মডেল তৈরি করেছে যা পরীক্ষার সময় নির্দিষ্ট ডেটা মনে রাখতে এবং ভুলে যেতে শিখতে ডিজাইন করা হয়েছে। এই মডেলটি স্নায়ু-মনস্তাত্ত্বিক নীতি দ্বারা অনুপ্রাণিত, যেখানে নিম্নলিখিত মূল উপাদানগুলি অন্তর্ভুক্ত করা হয়েছে:

  • আশ্চর্য একটি ট্রিগার: অপ্রত্যাশিত ঘটনাগুলি সহজে মনে থাকে। মেমরি মডিউলে ইনপুটের গ্রেডিয়েন্ট দ্বারা "আশ্চর্য" পরিমাপ করা হয়। গ্রেডিয়েন্ট যত বড়, ইনপুট তত বেশি অপ্রত্যাশিত।
  • গতি এবং ভুলে যাওয়ার প্রক্রিয়া: একটি গতি প্রক্রিয়া স্বল্প-মেয়াদী বিস্ময়কে দীর্ঘমেয়াদী মেমরিতে জমা করে, যখন একটি ভুলে যাওয়ার প্রক্রিয়া পুরাতন স্মৃতি মুছে ফেলে, যা মেমরির উপচে পড়া রোধ করে।
  • মাল্টি-লেয়ার পারসেপট্রন (MLP) ভিত্তিক মেমরি: মেমরি মডিউলটি একাধিক MLP স্তর দ্বারা গঠিত, যা ডেটার গভীর বিমূর্ততা সংরক্ষণ করতে সক্ষম, যা এটিকে ঐতিহ্যবাহী ম্যাট্রিক্স-ভিত্তিক মেমরির চেয়ে শক্তিশালী করে তোলে।

এই অনলাইন মেটা-লার্নিং পদ্ধতিটি মডেলকে কেবল প্রশিক্ষণ ডেটা মুখস্থ করার পরিবর্তে নতুন ডেটার সাথে খাপ খাইয়ে নিতে শেখার উপর মনোযোগ দিতে সাহায্য করে। মডিউলটি সমান্তরাল গণনার জন্য ডিজাইন করা হয়েছে, যা এর দক্ষতা বাড়ায়।

গভীর শিক্ষার আর্কিটেকচারে মেমরি মডিউল একত্রিত করা

টাইটানস গবেষণা দল তাদের মেমরি মডিউলকে গভীর শিক্ষার আর্কিটেকচারে অন্তর্ভুক্ত করার জন্য তিনটি ভিন্নতা প্রস্তাব করেছে:

  1. MAC (মেমরি কনটেক্সট হিসাবে): এই পদ্ধতিটি দীর্ঘমেয়াদী এবং স্থায়ী মেমরিকে (যা টাস্ক জ্ঞান এনকোড করে) প্রসঙ্গ হিসাবে একত্রিত করে, যা মনোযোগ প্রক্রিয়াকরণে ইনপুট হিসাবে ব্যবহৃত হয়।
  2. MAG (মেমরি গেট হিসাবে): এই পদ্ধতিটি দুটি শাখার মধ্যে একটি স্লাইডিং উইন্ডো মনোযোগ প্রক্রিয়াকরণের সাথে মেমরি মডিউলের গেটেড ফিউশন ব্যবহার করে।
  3. MAL (মেমরি স্তর হিসাবে): এখানে, মেমরি মডিউলটিকে একটি স্বাধীন স্তর হিসাবে প্রয়োগ করা হয় যা মনোযোগ প্রক্রিয়াকরণে দেওয়ার আগে ঐতিহাসিক তথ্য সংকুচিত করে।

দলটি দেখেছে যে প্রতিটি ভিন্নতার নিজস্ব শক্তি এবং দুর্বলতা রয়েছে।

টাইটানসের কর্মক্ষমতা এবং সুবিধা

টাইটানস ভাষা মডেলিং, সাধারণ জ্ঞান যুক্তি এবং টাইম-সিরিজ পূর্বাভাসের মতো বিভিন্ন কাজ জুড়ে উন্নত কর্মক্ষমতা দেখিয়েছে। এটি ট্রান্সফরমার এবং মাম্বার মতো অত্যাধুনিক মডেলগুলিকে ছাড়িয়ে গেছে। উল্লেখযোগ্যভাবে, দীর্ঘমেয়াদী মেমরি মডিউল (LMM) একা বেশ কয়েকটি কাজে বেসলাইন মডেলগুলিকে ছাড়িয়ে গেছে, যা স্বল্পমেয়াদী মেমরি (মনোযোগ) ছাড়াই এর স্বাধীন শেখার ক্ষমতা প্রদর্শন করে।

একটি "খড়ের গাদায় সূঁচ" পরীক্ষায়, যা দীর্ঘ পাঠ্যে সূক্ষ্ম সূত্র খুঁজে বের করার জন্য ডিজাইন করা হয়েছে, টাইটানস প্রায় 90% নির্ভুলতা বজায় রেখেছে, এমনকি সিকোয়েন্সের দৈর্ঘ্য 2k থেকে 16k পর্যন্ত বাড়লেও। দলটি ইঙ্গিত দেয় যে স্ট্যান্ডার্ড পরীক্ষাগুলি দীর্ঘ পাঠ্য পরিচালনা করার ক্ষেত্রে টাইটানসের সুবিধাগুলি সম্পূর্ণরূপে প্রদর্শন করে না। টাইটানস GPT4, Mamba এবং এমনকি Llama3.1 কেও RAG এর সাথে একটি কাজে ছাড়িয়ে গেছে, যেখানে অত্যন্ত দীর্ঘ নথি থেকে তথ্য বের করার প্রয়োজন ছিল।

টাইটানস টাইম-সিরিজ পূর্বাভাস এবং ডিএনএ সিকোয়েন্স মডেলিংয়ের মতো নির্দিষ্ট ক্ষেত্রেও চিত্তাকর্ষক কর্মক্ষমতা দেখিয়েছে।

টাইটানসের পেছনের দল

গুগল রিসার্চ এনওয়াইসি অ্যালগরিদম এবং অপটিমাইজেশন গ্রুপের একটি দল এই গবেষণাটি পরিচালনা করেছে, যা বর্তমানে গুগল ডিপমাইন্ডের অংশ নয়।

কর্নেল ইউনিভার্সিটির ইন্টার্ন আলি বেহরুজ এই গবেষণাপত্রের প্রথম লেখক।

সিংহুয়া বিশ্ববিদ্যালয়ের প্রাক্তন ছাত্র এবং কলম্বিয়া বিশ্ববিদ্যালয় থেকে পিএইচডি করা ঝং পেইলিন 2021 সাল থেকে গুগলে গবেষণা বিজ্ঞানী হিসেবে কর্মরত আছেন। তিনি একজন আন্ডারগ্র্যাজুয়েট ছাত্র হিসেবে STOC 2016-এ প্রথম-লেখক পেপার প্রকাশ করার জন্য উল্লেখযোগ্য।

গুগল ফেলো এবং ভিপি ভাহাব মিররোকনি দলটির নেতৃত্ব দিচ্ছেন।

দলটি পাইটর্চ এবং জ্যাক্স ব্যবহার করে টাইটানস তৈরি করেছে এবং শীঘ্রই প্রশিক্ষণ ও মূল্যায়নের জন্য কোড প্রকাশ করার পরিকল্পনা করছে।