Published on

বৃহৎ ভাষা মডেলে কর্মদক্ষতা বৃদ্ধির নতুন কৌশল

লেখকগণ
  • avatar
    নাম
    Ajax
    Twitter

ভূমিকা

বৃহৎ ভাষা মডেলগুলির (LLMs) ব্যবহার এবং নতুন ইনফারেন্স পদ্ধতির আবির্ভাবের সাথে সাথে, কার্যকর বৃহৎ-স্কেল ইনফারেন্স একটি গুরুত্বপূর্ণ চ্যালেঞ্জ হয়ে দাঁড়িয়েছে। এই ক্ষেত্রে প্রধান বাধা হল প্রথাগত অ্যাটেনশন মেকানিজমের মধ্যে থাকা কী-ভ্যালু (KV) ক্যাশে, যা ব্যাচ সাইজ এবং সিকোয়েন্স দৈর্ঘ্যের সাথে লিনিয়ারভাবে বৃদ্ধি পায়। এর ফলে এটি একটি "মেমরি হগ"-এ পরিণত হয়, যা LLM-এর স্কেলিং এবং প্রসারণে বাধা দেয়। এই সমস্যা সমাধানের জন্য MQA, GQA, এবং MLA-এর মতো বিভিন্ন পদ্ধতি তৈরি করা হয়েছে, কিন্তু এইগুলি প্রায়শই কঠোর মেমরি সীমাবদ্ধতার মধ্যে কর্মক্ষমতা বজায় রাখতে বা জটিলতা তৈরি করতে সমস্যা সৃষ্টি করে, যা ইঞ্জিনিয়ারিং চ্যালেঞ্জ এবং সামঞ্জস্যতার সমস্যা তৈরি করে।

মাল্টি-ম্যাট্রিক্স ফ্যাক্টরাইজেশন অ্যাটেনশন (MFA)

স্টেপস, সিনহুয়া ইউনিভার্সিটি এবং অন্যান্য প্রতিষ্ঠানের গবেষকরা সম্প্রতি মাল্টি-ম্যাট্রিক্স ফ্যাক্টরাইজেশন অ্যাটেনশন (MFA) এবং এর একটি প্রকার MFA-কী-রিইউজ (MFA-KR) নামে একটি নতুন অ্যাটেনশন মেকানিজম আর্কিটেকচার নিয়ে এসেছেন। এই মেকানিজমটি ভাষা মডেলের ইনফারেন্সের খরচ উল্লেখযোগ্যভাবে কমিয়ে দেয় এবং একই সাথে কর্মক্ষমতা উন্নত করে। MFA এবং MFA-KR শুধুমাত্র MLA-এর চেয়ে ভাল কাজ করে না, বরং KV ক্যাশের ব্যবহার ৯৩.৭% পর্যন্ত কমিয়ে প্রথাগত MHA-এর সাথে কর্মক্ষমতা মেলাতে পারে। MFA ডিজাইন করা হয়েছে সরলতা, সহজে পুনরুৎপাদনযোগ্যতা, হাইপারপ্যারামিটারের প্রতি কম সংবেদনশীলতা এবং বিভিন্ন পস-এম্বেডিং পদ্ধতির সাথে সামঞ্জস্য রেখে।

MFA-এর পদ্ধতি এবং বিশ্লেষণ

গবেষক দল অ্যাটেনশন মেকানিজমের সাধারণ ডিজাইন এবং ক্ষমতা বিশ্লেষণ করেছেন এবং ক্ষমতার সাথে সম্পর্কিত দুটি গুরুত্বপূর্ণ দিক চিহ্নিত করেছেন। এই বিশ্লেষণের মাধ্যমে নতুন বিশ্লেষণাত্মক পদ্ধতি এবং ডিজাইনের নীতি তৈরি করা হয়েছে। তারা বিভিন্ন MHA ভেরিয়েন্ট বোঝার জন্য একটি ঐক্যবদ্ধ কাঠামো হিসাবে জেনারেলাইজড মাল্টি-হেড অ্যাটেনশন (GMHA) ধারণাটি প্রবর্তন করেছেন। দলটি ইনফারেন্স দৃষ্টিকোণ থেকে কী-ভ্যালুগুলির গণনা এবং স্টোরেজও অনুসন্ধান করেছে এবং একটি ডিকম্পোজিশন দৃষ্টিকোণ থেকে মডেলের ক্ষমতা পরীক্ষা করেছে। ফুলি প্যারামিটারাইজড বিলিনিয়ার অ্যাটেনশন (FPBA) কে কর্মক্ষমতার তাত্ত্বিক ঊর্ধ্ব সীমা হিসাবে প্রতিষ্ঠিত করা হয়েছিল। তারা দেখেছেন যে MHA এবং এর ভেরিয়েন্টগুলি FPBA-এর নিম্ন-র্যাঙ্ক ডিকম্পোজিশন।

MQA এবং MLA-এর সাথে তুলনা

বিশ্লেষণটি দুটি প্রতিনিধিত্বকারী উন্নতি প্রকল্পের উপর দৃষ্টি নিবদ্ধ করে: মাল্টি-কোয়েরি অ্যাটেনশন (MQA) এবং মাল্টি-হেড ল্যাটেন্ট অ্যাটেনশন (MLA)। MQA একটি আরও আক্রমণাত্মক প্যারামিটার-শেয়ারিং কৌশল ব্যবহার করে, যেখানে সমস্ত অ্যাটেনশন হেড একই কী-ভ্যালু প্যারামিটার ব্যবহার করে। এটি মেমরি ব্যবহার কমায় কিন্তু মডেলের প্রকাশক্ষমতাকে প্রভাবিত করতে পারে। MLA প্যারামিটার কম্প্রেশনের জন্য একটি শেয়ার্ড ল্যাটেন্ট স্পেস প্রবর্তন করে, কিন্তু প্রকৃত প্রকাশক্ষমতা ক্ষুদ্রতম মাত্রা দ্বারা সীমিত, যার মানে মধ্যবর্তী মাত্রা বৃদ্ধি করলে কর্মক্ষমতার উল্লেখযোগ্য উন্নতি হয় না।

MFA-এর মূল উদ্ভাবন

MFA-এর উন্নয়নের মূল লক্ষ্য ছিল এমন একটি অ্যাটেনশন মেকানিজম তৈরি করা যা সম্পদের ব্যবহার কমিয়ে তাত্ত্বিক কর্মক্ষমতা সীমার কাছাকাছি পৌঁছাতে পারে। MFA-এর ডিজাইনে তিনটি মূল উদ্ভাবন অন্তর্ভুক্ত রয়েছে:

  • মডেলের ক্ষমতা সর্বাধিক করার জন্য অ্যাটেনশন হেডের সংখ্যা এবং মাত্রা উল্লেখযোগ্যভাবে বৃদ্ধি করা।
  • অ্যাটেনশন হেডের সংখ্যা এবং মাত্রা বাড়ানোর সময় প্যারামিটারের দক্ষতা বজায় রাখার জন্য একটি আক্রমণাত্মক নিম্ন-র্যাঙ্ক ডিকম্পোজিশন কৌশল ব্যবহার করা।
  • মডেলের জটিলতা বাড়লেও মেমরি ব্যবহার সর্বনিম্ন রাখার জন্য একটি একক কী-ভ্যালু হেড ডিজাইন ব্যবহার করা।

ক্ষমতা পরিমাপ এবং তুলনা

MFA এবং অন্যান্য অ্যাটেনশন মেকানিজম আরও বিশ্লেষণ করার জন্য, গবেষক দল দুটি মূল মেট্রিক প্রবর্তন করেছেন:

  • টোটাল ইফেক্টিভ র‍্যাঙ্ক (TER): অ্যাটেনশন হেডের সংখ্যা এবং প্রতি হেডের ফ্যাক্টরাইজেশন র‍্যাঙ্কের (FRH) গুণফল।
  • শেয়ার্ড ল্যাটেন্ট সাবস্পেস ডাইমেনশন (SLSD): সমস্ত অ্যাটেনশন হেড দ্বারা শেয়ার করা লুকানো স্থানের মাত্রা।

MFA, MQA-এর তুলনায় উচ্চতর SLSD এবং TER অর্জন করে। MLA-এর তুলনায়, MFA একই প্যারামিটার বাজেটের সাথে ছোট KV ক্যাশের আকার এবং উচ্চতর TER অর্জন করে, যখন তুলনামূলক SLSD বজায় রাখে। প্রথাগত MHA-এর তুলনায়, MFA-এর TER বেশি, যদিও এর SLSD ছোট।

পরীক্ষামূলক ফলাফল

১ বিলিয়ন থেকে ৭ বিলিয়ন প্যারামিটার এবং ১০ বিলিয়ন থেকে ১ ট্রিলিয়ন ডেটা পর্যন্ত মডেল পরীক্ষা করে নতুন আর্কিটেকচারের কর্মক্ষমতা মূল্যায়ন করার জন্য ব্যাপক পরীক্ষা করা হয়েছিল। MFA প্রথাগত MHA-এর সাথে তুলনীয় স্কেলিং ক্ষমতা প্রদর্শন করেছে, এমনকি বড় স্কেলে চমৎকার কর্মক্ষমতা বজায় রেখেছে। MFA-KR সামান্য কম কর্মক্ষমতা দেখালেও, এর স্কেলিং প্রবণতা MHA-এর সাথে সঙ্গতিপূর্ণ ছিল। MFA এবং MFA-KR-এর মেমরি সাশ্রয়ের সুবিধা মডেল আকারের সাথে বাড়তে থাকে, যেখানে MFA ৮৭.৫% মেমরি সাশ্রয় করে এবং MFA-KR সবচেয়ে বড় স্কেলে ৬.২৫% মেমরি ব্যবহার কমিয়ে আনে।

অ্যাবলেশন স্টাডিজ

অ্যাবলেশন স্টাডিজ MFA এবং MFA-KR-এর কার্যকারিতা প্রমাণ করেছে। বিভিন্ন মূলধারার পজিশনাল এনকোডিং পদ্ধতিতে তাদের কর্মক্ষমতা সুবিধাও নিশ্চিত করা হয়েছে।

ভবিষ্যৎ সম্ভাবনা

MFA একটি সরল ডিজাইনের সাথে উল্লেখযোগ্য উন্নতি প্রদান করে, যা LLM ইনফারেন্সে মেমরির সীমাবদ্ধতাকে কার্যকরভাবে সমাধান করে এবং অতিরিক্ত ইঞ্জিনিয়ারিং জটিলতা যোগ করে না। এটি বিদ্যমান ট্রান্সফরমার ইকোসিস্টেমে সহজে একত্রিত হতে পারে, যা বিভিন্ন পরিস্থিতিতে LLM-এর প্রয়োগকে ত্বরান্বিত করে।