ডিফিউশন মডেল ইনফারেন্স স্কেলিং নতুন দৃষ্টান্ত

ডিফিউশন মডেলে ইনফারেন্স-টাইম স্কেলিং

সাম্প্রতিককালে লার্জ ল্যাঙ্গুয়েজ মডেলগুলির (LLMs) ইনফারেন্সের সময় স্কেলিংয়ের কার্যকারিতা দেখা গিয়েছে। o1, o3, DeepSeek R1, QwQ, এবং Step Reasoner mini-এর মতো মডেলগুলি দেখিয়েছে যে ইনফারেন্সের সময় গণনা বৃদ্ধি করলে কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত হতে পারে। এই প্রেক্ষাপটে, প্রশ্ন উঠেছে যে এই নীতিটি ডিফিউশন মডেলগুলিতেও প্রয়োগ করা যেতে পারে কিনা।

নিউ ইয়র্ক ইউনিভার্সিটির একদল গবেষক এই প্রশ্নের উত্তর খুঁজে বের করার চেষ্টা করেছেন। একটি সাধারণ অনুসন্ধান কাঠামোর মাধ্যমে তারা প্রমাণ করেছেন যে ডিফিউশন মডেলের জন্য ইনফারেন্স-টাইম স্কেলিং সত্যিই কার্যকর। ইনফারেন্সের সময় গণনা বৃদ্ধি করলে উৎপাদিত নমুনার গুণমান উল্লেখযোগ্যভাবে বৃদ্ধি পায়।

মূল অনুসন্ধান

ইনফারেন্স-টাইম স্কেলিং ডিফিউশন মডেলের জন্য কার্যকর: ইনফারেন্সের সময় বেশি কম্পিউটেশনাল রিসোর্স ব্যবহার করলে উচ্চ মানের নমুনা পাওয়া যায়।
উপাদান সংমিশ্রণে নমনীয়তা: এই কাঠামো বিভিন্ন অ্যাপ্লিকেশনের জন্য বিভিন্ন উপাদানের কনফিগারেশনের অনুমতি দেয়।
ডিনয়েজিং ধাপের বাইরে: গবেষণাটি পরামর্শ দেয় যে স্যাম্পলিংয়ের সময় আরও ভালো নয়েজ খোঁজা NFE স্কেলিংয়ের আরেকটি মাত্রা, যা কেবল ডিনয়েজিং ধাপ বাড়ানোর বাইরেও কাজ করে।

দুটি ডিজাইন অক্ষ

এই কাঠামো দুটি মূল ডিজাইন অক্ষের উপর দৃষ্টি নিবদ্ধ করে:

যাচাইকারী: অনুসন্ধান প্রক্রিয়ার সময় প্রতিক্রিয়া প্রদান করে।
অ্যালগরিদম: আরও ভালো নয়েজ ক্যান্ডিডেট খুঁজে বের করে।

গবেষণা পদ্ধতি

গবেষকরা যাচাইকারীদের জন্য তিনটি ভিন্ন পরিস্থিতি অনুসন্ধান করেছেন:

যেখানে চূড়ান্ত মূল্যায়ন সম্পর্কে বিশেষ তথ্য পাওয়া যায়।
যেখানে জেনারেশন গাইড করার জন্য শর্তসাপেক্ষ তথ্য পাওয়া যায়।
যেখানে কোনো অতিরিক্ত তথ্য পাওয়া যায় না।

অ্যালগরিদমের জন্য, তারা নিম্নলিখিত বিষয়গুলি নিয়ে কাজ করেছেন:

র্যান্ডম সার্চ: একটি নির্দিষ্ট সেট থেকে সেরাটি নির্বাচন করা।
জিরো-অর্ডার সার্চ: যাচাইকারীর প্রতিক্রিয়ার মাধ্যমে পুনরাবৃত্তিমূলকভাবে নয়েজ ক্যান্ডিডেট উন্নত করা।
পাথ সার্চ: যাচাইকারীর প্রতিক্রিয়ার মাধ্যমে পুনরাবৃত্তিমূলকভাবে ডিফিউশন স্যাম্পলিং ট্র্যাজেক্টোরি উন্নত করা।

এই গবেষণাটি প্রাথমিকভাবে একটি তুলনামূলকভাবে সহজ ইমেজনেট ক্লাস-কন্ডিশনাল জেনারেশন সেটআপে ডিজাইন করা হয়েছিল। পরবর্তীতে, তারা এই ডিজাইনগুলি বৃহত্তর টেক্সট-কন্ডিশনাল জেনারেশনে প্রয়োগ করে এবং তাদের প্রস্তাবিত ফ্রেমওয়ার্ক মূল্যায়ন করে।

ইনফারেন্স সময় স্কেলিং

এই পেপারটি ডিফিউশন মডেলগুলিতে ইনফারেন্স সময় স্কেলিংয়ের জন্য একটি কাঠামো প্রস্তাব করে, যা অপ্টিমাল স্যাম্পলিং নয়েজের অনুসন্ধান হিসাবে কাজ করে। এই প্রক্রিয়ায় দুটি মূল উপাদান রয়েছে:

যাচাইকারী: এগুলি প্রি-ট্রেইনড মডেল যা জেনারেটেড নমুনার গুণমান মূল্যায়ন করে। তারা ঐচ্ছিক শর্তগুলির সাথে জেনারেটেড নমুনা গ্রহণ করে এবং একটি স্কেলার স্কোর আউটপুট করে।
অ্যালগরিদম: এই অ্যালগরিদমগুলি আরও ভালো ক্যান্ডিডেট নমুনা খুঁজে বের করার জন্য যাচাইকারীর স্কোর ব্যবহার করে।

মোট ইনফারেন্স বাজেট ফাংশন মূল্যায়নের মোট সংখ্যা (NFE) দ্বারা পরিমাপ করা হয়, যার মধ্যে ডিনয়েজিং ধাপ এবং অনুসন্ধানের খরচ উভয়ই অন্তর্ভুক্ত।

সার্চ যাচাইকারী

গবেষকরা প্রথমে ওরাকল যাচাইকারী ব্যবহার করেন, যার নির্বাচিত নমুনার চূড়ান্ত মূল্যায়ন সম্পর্কে সম্পূর্ণ তথ্য ছিল। ইমেজনেটের জন্য, এর মধ্যে FID এবং IS-এর মতো মেট্রিক অন্তর্ভুক্ত ছিল। এরপর তারা CLIP এবং DINO-এর মতো তত্ত্বাবধানে থাকা যাচাইকারী মডেলগুলি ব্যবহার করেন। এই মডেলগুলি নমুনাগুলিকে শ্রেণীবদ্ধ করতে এবং ক্লাস লেবেলের সাথে সম্পর্কিত সর্বোচ্চ লগিটের নমুনা নির্বাচন করতে ব্যবহৃত হয়েছিল।

তবে, তারা লক্ষ্য করেছেন যে এই ক্লাসিফায়ারগুলি FID স্কোরের উদ্দেশ্যগুলির সাথে আংশিকভাবে একত্রিত হয়েছে। এর ফলে কম্পিউটেশন বাড়ার সাথে সাথে নমুনার ভিন্নতা হ্রাস পায় এবং মোড ধসে পড়ে। এই ঘটনাটিকে "যাচাইকারী হ্যাকিং" বলা হয়, যা র্যান্ডম সার্চ অ্যালগরিদমের সীমাহীন অনুসন্ধান স্থানের কারণে দ্রুত হয়।

গবেষণায় দেখা গেছে যে, যাচাইকারীদের কার্যকরভাবে অনুসন্ধান পরিচালনা করার জন্য শর্তসাপেক্ষ তথ্যের প্রয়োজন নেই। তারা DINO/CLIP ক্লাসিফায়ার থেকে লগিটের মধ্যে একটি শক্তিশালী সম্পর্ক লক্ষ্য করেছেন।

সার্চ অ্যালগরিদম

যাচাইকারী হ্যাকিং কমাতে, গবেষকরা আরও পরিশীলিত অনুসন্ধান অ্যালগরিদম ব্যবহার করেছেন যা ধীরে ধীরে ক্যান্ডিডেট নমুনাগুলিকে অপ্টিমাইজ করে। এর মধ্যে একটি জিরো-অর্ডার অনুসন্ধান পদ্ধতি অন্তর্ভুক্ত ছিল:

একটি পিভট পয়েন্ট হিসাবে র্যান্ডম গসিয়ান নয়েজ দিয়ে শুরু করা।
পিভট পয়েন্টের আশেপাশে N সংখ্যক ক্যান্ডিডেট খুঁজে বের করা।
নমুনা এবং যাচাইকারীর স্কোর পাওয়ার জন্য ODE সলভারের মাধ্যমে ক্যান্ডিডেটদের চালানো।
সেরা ক্যান্ডিডেট দিয়ে পিভট পয়েন্ট আপডেট করা এবং ধাপ 1-3 পুনরাবৃত্তি করা।

তারা একটি পাথ সার্চ অ্যালগরিদমও নিয়ে কাজ করেছেন, যা স্যাম্পলিং ট্র্যাজেক্টোরি বরাবর অনুসন্ধানের সম্ভাবনা খতিয়ে দেখে:

N সংখ্যক প্রাথমিক নয়েজ নমুনা নেওয়া এবং একটি নয়েজ লেভেল σ পর্যন্ত ODE সলভার চালানো।
প্রতিটি নমুনায় নয়েজ যোগ করা এবং ফরোয়ার্ড নয়েজিং প্রক্রিয়া অনুকরণ করা।
প্রতিটি নয়েজি নমুনায় একটি ODE সলভার চালানো এবং যাচাইকারীর স্কোরের ভিত্তিতে সেরা N সংখ্যক ক্যান্ডিডেট রাখা, যতক্ষণ না ODE সলভার σ=0 তে পৌঁছায় ততক্ষণ পর্যন্ত পুনরাবৃত্তি করা।
বাকি N সংখ্যক নমুনার মধ্যে র্যান্ডমলি অনুসন্ধান করা এবং সেরাটি রাখা।

জিরো-অর্ডার এবং পাথ সার্চ অ্যালগরিদম উভয়ই র্যান্ডম সার্চের তুলনায় শক্তিশালী লোকালিটি বজায় রাখে।

টেক্সট-টু-ইমেজ পরিস্থিতিতে স্কেলিং

গবেষক দল বৃহত্তর টেক্সট-টু-ইমেজ টাস্কে অনুসন্ধান ফ্রেমওয়ার্কের স্কেলিং ক্ষমতা পরীক্ষা করেছেন। তারা DrawBench এবং T2I-CompBench ডেটাসেট ব্যবহার করেছেন, যেখানে FLUX.1-dev মডেল ছিল মূল ভিত্তি। তারা তত্ত্বাবধানে থাকা যাচাইকারীদের নির্বাচনও প্রসারিত করেছেন, যার মধ্যে রয়েছে এস্থেটিক স্কোর প্রেডিক্টর, CLIPScore, এবং ImageReward। এছাড়াও, তারা এই তিনটি যাচাইকারীকে একত্রিত করে একটি যাচাইকারী দল তৈরি করেছেন।

বিশ্লেষণ: যাচাইকারী-টাস্ক অ্যালাইনমেন্ট

গবেষণাটি বিভিন্ন ডেটাসেটে বিভিন্ন যাচাইকারী-অ্যালগরিদম সংমিশ্রণের ফলাফল তুলনা করেছে। DrawBench-এ, তারা দেখেছেন যে সমস্ত যাচাইকারী ব্যবহার করলে নমুনার গুণমান সাধারণত উন্নত হয়। তবে, তারা লক্ষ্য করেছেন যে এস্থেটিক এবং CLIP যাচাইকারীকে আলাদাভাবে ব্যবহার করলে তাদের নিজস্ব পক্ষপাতিত্বের কারণে একে অপরের উপর নেতিবাচক প্রভাব পড়তে পারে। এর কারণ হল তাদের মূল্যায়নের ফোকাসের পার্থক্য: এস্থেটিক স্কোর ভিজ্যুয়াল গুণমানের উপর ফোকাস করে, প্রায়শই উচ্চ শৈলীযুক্ত ছবি পছন্দ করে, যেখানে CLIP ভিজ্যুয়াল-টেক্সট অ্যালাইনমেন্টকে অগ্রাধিকার দেয়, কখনও কখনও ভিজ্যুয়াল গুণমানকে ত্যাগ করে।

তারা উল্লেখ করেছেন যে কিছু যাচাইকারী নির্দিষ্ট কাজের জন্য বেশি উপযুক্ত, এবং একটি যাচাইকারীর কার্যকারিতা টাস্কের প্রয়োজনীয়তার সাথে তার অ্যালাইনমেন্টের উপর নির্ভর করে।

অ্যালগরিদম কর্মক্ষমতা

তিনটি অনুসন্ধান অ্যালগরিদম (র্যান্ডম, জিরো-অর্ডার এবং পাথ) DrawBench-এ স্যাম্পলিং গুণমান কার্যকরভাবে উন্নত করেছে। তবে, র্যান্ডম সার্চ কিছু ক্ষেত্রে ভালো ফল দিয়েছে কারণ অন্য দুটি পদ্ধতির স্থানীয় প্রকৃতির কারণে। র্যান্ডম সার্চ যাচাইকারীর পক্ষপাতিত্বের দিকে দ্রুত অগ্রসর হয়েছে, যেখানে অন্য দুটি অ্যালগরিদমের কম অনুকূল ক্যান্ডিডেটদের উপর উন্নতি প্রয়োজন।

ফাইন-টিউনিং এর সাথে সামঞ্জস্যতা

গবেষক দল তাদের অনুসন্ধান পদ্ধতির ফাইন-টিউনড মডেলগুলির সাথে সামঞ্জস্যতা নিয়ে কাজ করেছেন। তারা একটি DPO-ফাইন-টিউনড স্টেবল ডিফিউশন XL মডেল ব্যবহার করেছেন এবং দেখেছেন যে অনুসন্ধান পদ্ধতিটি বিভিন্ন মডেলে সাধারণীকরণ করা যেতে পারে এবং ইতিমধ্যে অ্যালাইনড মডেলগুলির কর্মক্ষমতা উন্নত করতে পারে।

ইনফারেন্স গণনার বিভিন্ন দিকের প্রভাব

গবেষণায় দেখা গেছে যে ইনফারেন্স গণনার বিভিন্ন দিক ফলাফলের উপর প্রভাব ফেলে:

অনুসন্ধান পুনরাবৃত্তির সংখ্যা: পুনরাবৃত্তি বাড়ালে নয়েজ অপটিমামের কাছাকাছি আসে।
অনুসন্ধান পুনরাবৃত্তি প্রতি গণনা: পুনরাবৃত্তি প্রতি ডিনয়েজিং ধাপের সংখ্যা সামঞ্জস্য করলে বিভিন্ন গণনাগতভাবে অপ্টিমাল অঞ্চল পাওয়া যায়।
চূড়ান্ত জেনারেশন গণনা: দলটি সর্বোচ্চ চূড়ান্ত নমুনার গুণমান নিশ্চিত করার জন্য চূড়ান্ত ডিনয়েজিং ধাপের জন্য অপ্টিমাল সেটিংস ব্যবহার করেছে।

গণনায় বিনিয়োগের কার্যকারিতা

গবেষকরা ছোট ডিফিউশন মডেলগুলিতে ইনফারেন্স-টাইম স্কেলিংয়ের কার্যকারিতা নিয়ে কাজ করেছেন। তারা দেখেছেন যে ইমেজনেটের জন্য, ছোট মডেলগুলিকে স্কেল করা খুব কার্যকর হতে পারে। কিছু ক্ষেত্রে, ছোট মডেলে অনুসন্ধান করা বড় মডেলগুলিকে অনুসন্ধান ছাড়াই ছাড়িয়ে যেতে পারে। তবে, কার্যকারিতা ছোট মডেলের বেসলাইন কর্মক্ষমতার উপর নির্ভর করে।

টেক্সট-ভিত্তিক সেটিংসে, PixArt-Σ, FLUX-1.dev-এর তুলনায় কম গণনা ব্যবহার করেও ভালো ফল দিয়েছে। এই ফলাফলগুলি প্রমাণ করে যে প্রশিক্ষণের সময় ব্যয় করা উল্লেখযোগ্য গণনাগত সম্পদ জেনারেশনের সময় কম গণনার মাধ্যমে পূরণ করা যেতে পারে, যার ফলে আরও দক্ষতার সাথে উচ্চ মানের নমুনা পাওয়া যায়।