- Published on
বৃহৎ মডেলের ঘনত্ব আইন স্কেলিং আইনের বাইরে একটি নতুন দৃষ্টিকোণ
বৃহৎ মডেলের ঘনত্ব আইন: স্কেলিং আইনের বাইরে একটি নতুন দৃষ্টিকোণ
চীনা একাডেমি অফ সায়েন্সেসের অধ্যাপক লিউ ঝিইউয়ানের নেতৃত্বে সিংহুয়া বিশ্ববিদ্যালয়ের একটি দল বৃহৎ মডেলগুলির জন্য "ঘনত্ব আইন" নামে একটি নতুন ধারণা নিয়ে এসেছেন। এই আইন অনুসারে, বৃহৎ মডেলগুলির কার্যকারিতা বা সক্ষমতা ঘনত্ব প্রতি ১০০ দিনে প্রায় দ্বিগুণ হয়ে যায়। এই নতুন ধারণাটি মূলত মডেলের আকারের পরিবর্তে মডেলের প্যারামিটারগুলির কার্যকারিতার উপর বেশি জোর দেয়। এটি চিপ শিল্পে ব্যবহৃত মুরের আইনের সাথে তুলনীয়।
পটভূমি এবং প্রেরণা
ঐতিহ্যগত স্কেলিং আইন অনুসারে, মডেলের আকার (প্যারামিটার) এবং প্রশিক্ষণের ডেটা বৃদ্ধির সাথে সাথে মডেলের কার্যকারিতা বৃদ্ধি পায়। কিন্তু নতুন "ঘনত্ব আইন" একটি ভিন্ন দৃষ্টিকোণ থেকে এই বিষয়টিকে দেখে। এটি প্যারামিটারগুলির কার্যকর ব্যবহার এবং সময়ের সাথে সাথে মডেলের দক্ষতার দ্রুত উন্নতির উপর জোর দেয়। এই গবেষণায়, গবেষক দল "কার্যকারিতা ঘনত্ব" ধারণাটি প্রবর্তন করেছেন, যা কার্যকর প্যারামিটার এবং মডেলের প্রকৃত প্যারামিটারের অনুপাত পরিমাপ করে।
মূল ধারণা
- কার্যকারিতা ঘনত্ব (Capability Density): এটি একটি মডেলে "কার্যকর প্যারামিটার" এবং প্রকৃত প্যারামিটারের অনুপাত।
- কার্যকর প্যারামিটার (Effective Parameters): একটি রেফারেন্স মডেলের সমান কার্যকারিতা অর্জনের জন্য একটি মডেলের প্রয়োজনীয় প্যারামিটারের সর্বনিম্ন সংখ্যা।
- রেফারেন্স মডেল (Reference Model): একটি মডেল যা অন্যান্য মডেলের কার্যকর প্যারামিটার গণনা করার জন্য একটি মানদণ্ড হিসাবে ব্যবহৃত হয়।
- লস এস্টিমেশন (Loss Estimation): রেফারেন্স মডেলগুলির একটি সিরিজের সাহায্যে মডেল প্যারামিটার এবং লসের মধ্যে সম্পর্ক স্থাপন করার প্রক্রিয়া।
- পারফরম্যান্স এস্টিমেশন (Performance Estimation): লস এবং পারফরম্যান্সের মধ্যে একটি সম্পূর্ণ ম্যাপিং তৈরি করার প্রক্রিয়া। এখানে, মডেলগুলিতে নতুন ক্ষমতার উদ্ভবও বিবেচনা করা হয়।
ঘনত্ব আইন
বৃহৎ ভাষা মডেলগুলির (এলএলএম) সর্বোচ্চ কার্যকারিতা ঘনত্ব সময়ের সাথে সাথে দ্রুত বৃদ্ধি পায়। এই বৃদ্ধির সূত্রটি হল: ln(ρmax) = At + B, যেখানে ρmax হল সময় t-তে সর্বোচ্চ কার্যকারিতা ঘনত্ব। এই সূত্র অনুসারে, আধুনিক মডেলগুলির কার্যকারিতা প্রতি ৩.৩ মাসে (প্রায় ১০০ দিনে) অর্ধেক প্যারামিটার দিয়েই অর্জন করা যেতে পারে।
ঘনত্ব আইনের প্রভাব
- কম অনুমান খরচ: সময়ের সাথে সাথে মডেল অনুমানের খরচ দ্রুত হ্রাস পাচ্ছে। উদাহরণস্বরূপ, GPT-3.5 থেকে Gemini-1.5-Flash-এ প্রতি মিলিয়ন টোকেনের খরচ উল্লেখযোগ্যভাবে কমেছে।
- ত্বরান্বিত কার্যকারিতা ঘনত্ব বৃদ্ধি: চ্যাটজিপিটির প্রকাশের পর থেকে, কার্যকারিতা ঘনত্ব বৃদ্ধির হার আরও দ্রুত হয়েছে।
- মুরের আইন এবং ঘনত্ব আইনের মিলন: চিপের ঘনত্ব বৃদ্ধি (মুরের আইন) এবং মডেলের কার্যকারিতা ঘনত্বের (ঘনত্ব আইন) মধ্যে সংযোগ অন-ডিভাইস এআই-এর সম্ভাবনা নির্দেশ করে।
- মডেল কম্প্রেশনের সীমাবদ্ধতা: শুধুমাত্র মডেল কম্প্রেশন কৌশলগুলি কার্যকারিতা ঘনত্ব বাড়াতে যথেষ্ট নাও হতে পারে। প্রকৃতপক্ষে, বেশিরভাগ সংকুচিত মডেলের ঘনত্ব তাদের মূল মডেলের চেয়ে কম।
- সংক্ষিপ্ত মডেল জীবনচক্র: কার্যকারিতা ঘনত্ব দ্রুত বৃদ্ধির কারণে, উচ্চ-কার্যকারিতা সম্পন্ন মডেলগুলির কার্যকর জীবনকাল হ্রাস পাচ্ছে, যা লাভজনকতার জন্য একটি সংক্ষিপ্ত সুযোগ তৈরি করছে।
বৃহত্তর প্রেক্ষাপট
ঘনত্ব আইন বৃহত্তর প্রবণতার একটি অংশ, যেখানে এআই যুগের মূল চালিকাশক্তি - বিদ্যুৎ, কম্পিউটিং শক্তি এবং বুদ্ধিমত্তা - সবই দ্রুত ঘনত্ব বৃদ্ধির সম্মুখীন হচ্ছে। গত ২০ বছরে ব্যাটারির শক্তি ঘনত্ব চারগুণ বেড়েছে। চিপ ট্রানজিস্টরের ঘনত্ব প্রতি ১৮ মাসে দ্বিগুণ হয় (মুরের আইন)। এআই মডেলের কার্যকারিতা ঘনত্ব প্রতি ১০০ দিনে দ্বিগুণ হয়। এই প্রবণতা আরও দক্ষ এআই-এর দিকে একটি পরিবর্তনের ইঙ্গিত দেয়, যা শক্তি এবং কম্পিউটিং সম্পদের চাহিদা হ্রাস করে। প্রান্তীয় কম্পিউটিং এবং স্থানীয় এআই মডেলগুলির উত্থান প্রত্যাশিত, যা এমন একটি ভবিষ্যতের দিকে নিয়ে যায় যেখানে এআই সর্বত্র বিরাজমান।
অতিরিক্ত বিষয়
গবেষণা দলটি কার্যকারিতা ঘনত্বের প্রবণতা বিশ্লেষণ করতে ২৯টি বহুল ব্যবহৃত ওপেন-সোর্স বৃহৎ মডেল ব্যবহার করেছে। এই গবেষণাটি আরও দেখায় যে, মডেলের কার্যকারিতা ঘনত্ব বাড়ানোর জন্য শুধুমাত্র মডেল কম্প্রেশন অ্যালগরিদমের উপর নির্ভর করা যথেষ্ট নাও হতে পারে। গবেষণা পত্রটি এই লিংকে পাওয়া যাবে: Densing Law of LLMs