- Published on
OpenAI-এর O3 মডেল: যুক্তি এবং ARC AGI-তে একটি বড় অগ্রগতি
OpenAI-এর O3 মডেল: যুক্তি এবং ARC AGI-তে একটি বড় অগ্রগতি
OpenAI সম্প্রতি তাদের নতুন O3 মডেলের ঘোষণা করেছে, যা মূলত O1 মডেলের যুক্তির ক্ষমতাকে আরও উন্নত করেছে। এই মডেলটি ২০২৫ সালের জানুয়ারির শেষে সর্বসাধারণের জন্য উন্মুক্ত করা হবে। O3 মডেলটি এমন এক সময়ে আত্মপ্রকাশ করেছে যখন অনেক বিশেষজ্ঞ মনে করছেন যে, AI প্রযুক্তি একটি নতুন স্তরে পৌঁছেছে এবং GPT-4 এর মতো মডেলগুলোর প্রায় সমকক্ষতা লাভ করেছে।
২০২৪ সালে GPT-4 এর মতো বড় কোনো AI মডেলের আত্মপ্রকাশ না ঘটলেও, O3 মডেলের আবির্ভাব সেই অভাব পূরণ করেছে। এটি O1 মডেলের তুলনায় আরও বেশি অপ্রত্যাশিত এবং দ্রুত উন্নতি দেখিয়েছে। যেখানে O1 মডেলটি দীর্ঘ প্রস্তুতি নিয়ে এসেছিল, সেখানে O3-এর দ্রুত এবং কার্যকর প্রকাশ ২০২৫ সালের জন্য একটি আশার সঞ্চার করেছে।
অনেকেই O1 মডেলের ব্যবহার নিয়ে সন্দেহ প্রকাশ করলেও, যেমন - গণিত, প্রোগ্রামিং, পদার্থবিদ্যা এবং কঠিন বিজ্ঞানের বাইরে এর প্রয়োগ নিয়ে প্রশ্ন তুলেছেন। তবে, এই মডেলগুলি খুব শীঘ্রই AI গবেষণার ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হবে, যা উন্নয়নের গতিকে আরও বাড়িয়ে দেবে। একটি আশাবাদী ধারণা হলো, এই মডেলগুলোর ব্যবহার এবং প্রয়োগের জন্য এখনও পর্যাপ্ত সময় পাওয়া যায়নি এবং অন্যান্য ক্ষেত্রে এই মডেলগুলোকে ব্যবহার করার জন্য কোনো উপযুক্ত প্রশিক্ষণ পদ্ধতিও এখনো পর্যন্ত তৈরি হয়নি।
OpenAI-এর O3 মডেল প্রমাণ করে যে, শিল্পটি এখন নতুন উচ্চতায় আরোহণ করছে, কারণ শুধুমাত্র ইন্টারনেট টেক্সটের ওপর নির্ভর করে প্রাক-প্রশিক্ষণের সুবিধা কমে আসছে। O3 যুক্তির মূল্যায়নে বড় ধরনের সাফল্য অর্জন করেছে, যা নিম্নলিখিত বিষয়গুলোতে বিশেষভাবে উল্লেখযোগ্য:
- এটি প্রথম মডেল যা ARC AGI পুরস্কারে ৮৫% এর বেশি সাফল্যের হার অর্জন করেছে। (উল্লেখ্য, এটি পাবলিক ডেটাসেটে সম্পন্ন হয়েছে, পরীক্ষার ডেটাসেটে নয়, এবং এটি একটি ব্যয়সীমার বাইরে।)
- নতুন ফ্রন্টিয়ার ম্যাথ বেঞ্চমার্কে এর কর্মক্ষমতা ২% থেকে ২৫% এ উন্নীত হয়েছে, যা একটি বিশাল অগ্রগতি।
- SWE-Bench-Verified এর মতো প্রোগ্রামিং বেঞ্চমার্কে উল্লেখযোগ্য উন্নতি লাভ করেছে।
এই সবকিছুই মডেলের প্রথম সংস্করণ ঘোষণার মাত্র তিন মাসের মধ্যে ঘটেছে। এই পরিবর্তনগুলো খুব শীঘ্রই AI গবেষণার অগ্রগতিকে আরও দ্রুত করবে। যুক্তির খরচ কমার সাথে সাথে, এটি সফটওয়্যার ইঞ্জিনিয়ারিংয়ের অনেক ভূমিকাকে পরিবর্তন করতে চলেছে।
অন্যদিকে, OpenAI একটি ব্লগ পোস্ট এবং গবেষণা পত্র প্রকাশ করেছে, যেখানে তারা দেখিয়েছে কিভাবে O1 মডেল নিরাপত্তা এবং সারিবদ্ধতা গবেষণাকে উন্নত করতে পারে। এটি একটি গুরুত্বপূর্ণ প্রশ্নের উত্তর দেয়: "যুক্তি ক্ষমতা কি যাচাইযোগ্য ক্ষেত্রের বাইরেও কোনো মূল্য আনতে পারে?" এই প্রশ্নটি ২০২৫ সালে আরও অনেকবার পর্যালোচনা করা হবে।
O3-এর একটি সংক্ষিপ্ত বিবরণ
OpenAI-এর O3 মডেলটি "OpenAI-এর ১২ দিনের প্রকাশনা কার্যক্রম"-এর শেষ দিনে ঘোষণা করা হয়েছিল। এই মডেলটি বিভিন্ন ক্ষেত্রে আগের সেরা মডেল যেমন - জেমিনি ১.৫ প্রো এবং ক্লড ৩.৫ সনেটের চেয়েও ভালো পারফর্ম করেছে।
O1 সিরিজের মডেলগুলো নিয়ে আলোচনা করার সময়, একটি বিষয় প্রায়ই উপেক্ষা করা হয় - তা হলো স্তম্ভ চিত্রের ছায়ার অর্থ। O1 এর প্রথম ব্লগ পোস্টে, ফলাফলের প্রথম চিত্রের ব্যাখ্যায় এটি উল্লেখ করা হয়েছিল: কঠিন স্তম্ভগুলো pass@1 এর নির্ভুলতা নির্দেশ করে, এবং ছায়াযুক্ত অঞ্চলটি ৬৪টি নমুনা ব্যবহার করে সংখ্যাগরিষ্ঠ ভোটের (ঐক্যমত্য) কর্মক্ষমতা দেখায়।
এই বিস্তারিত তথ্য থেকে জানা যায় যে, O1 মডেলের সেরা পারফরম্যান্সের জন্য একাধিকবার জেনারেট করা ঐক্যমত্য অপরিহার্য। এটি যুক্তির প্রতিটি স্তরের গণনার জন্য প্রযোজ্য। ভালো ফলাফল পাওয়ার জন্য শুধুমাত্র একটি আউটপুট স্ট্রিমের উপর নির্ভর করা উচিত নয়। তবে এর মানে এই নয় যে, এখানে ট্রি সার্চ বা কোনো মধ্যবর্তী উপস্থাপনা ব্যবহার করতে হবে। O1 এর বিশেষ মোড এবং ARC পুরস্কারের ফলাফলগুলো এই সমান্তরাল জেনারেশনের উপর নির্ভর করে সর্বোচ্চ স্কোর অর্জন করেছে।
ফ্রন্টিয়ার ম্যাথ বেঞ্চমার্কের গুণগত মূল্যায়ন সম্পর্কে, ফিল্ডস পদক বিজয়ী দুইজনের মন্তব্য উল্লেখ করা যেতে পারে। তাদের মন্তব্যগুলো বেঞ্চমার্কের কঠিন অংশগুলোর উপর ভিত্তি করে করা হয়েছে, যা এর গুণগত লক্ষ্যকে ভালোভাবে তুলে ধরে:
"এই প্রশ্নগুলো অত্যন্ত কঠিন... আমি মনে করি, এগুলো আগামী কয়েক বছরে AI-কে হতাশ করবে।" - টেরেন্স টাও, ২০০৬ সালের ফিল্ডস পদক বিজয়ী।
"আমি যে প্রশ্নগুলো দেখেছি, সেগুলো আমার গবেষণার ক্ষেত্রের বাইরে এবং এগুলো আমার পক্ষে সমাধান করা অসম্ভব... এগুলো IMO (আন্তর্জাতিক গণিত অলিম্পিয়াড) সমস্যাগুলোর চেয়েও কঠিন।" - টিমোথি গোয়ার্স, ২০০৬ সালের ফিল্ডস পদক বিজয়ী।
এই বেঞ্চমার্কটি নভেম্বরের ৭ তারিখে চালু করা হয়েছিল এবং AI সক্ষমতার ক্ষেত্রে এটি একটি নতুন দিগন্ত হিসেবে বিবেচিত হয়েছিল। এই প্রকাশনার মাধ্যমে OpenAI-এর O3 একমাত্র দুই অঙ্কের স্কোর করা মডেল হিসেবে নিজেকে প্রতিষ্ঠিত করেছে, যা সরাসরি ২৫% এ উন্নীত হয়েছে।
দ্বিতীয় গুরুত্বপূর্ণ ফলাফলটি প্রোগ্রামিং ক্ষেত্রে দেখা গেছে। লাইভ স্ট্রিমিংয়ে, OpenAI SWE-Bench Verified এ ৭১.৭% স্কোর দেখিয়েছে, যা বর্তমানের সবচেয়ে ভালো ফলাফলের একটি। এছাড়াও, কোডফোর্সেস (একটি প্রোগ্রামিং প্রতিযোগিতা ওয়েবসাইট) এও এর ভালো ফলাফল দেখা গেছে।
O3 একটি নির্দিষ্ট N মানের অধীনে ঐক্যমত্য ভোটের মাধ্যমে ২৭২৭ স্কোর করেছে, যা আন্তর্জাতিক গ্র্যান্ডমাস্টার স্তরের। এটি বিশ্বের সেরা ২০০ জন প্রোগ্রামারের মধ্যে স্থান করে নিয়েছে। O3-mini, O1-এর চেয়ে ভালো পারফর্ম করেছে এবং এর খরচও অনেক কম। ২০২৪ সালে আমরা যে প্রবণতা দেখেছি, তাতে মনে হয় এটি আরও বেশি সংখ্যক ব্যবহারকারীর জন্য একটি প্রভাবশালী মডেল হতে পারে। এটি O3 লাইভস্ট্রিমের চূড়ান্ত সাফল্য এনে দিয়েছে - ARC AGI চ্যালেঞ্জের কার্যকর সমাধান।
ARC মূল্যায়ন
অ্যাবস্ট্রাকশন অ্যান্ড রিজনিং কর্পাস (ARC) হলো একটি AI মূল্যায়ন পদ্ধতি, যা ফ্রাঁসোয়া চোলেট ২০১৯ সালের "অন দ্য মেজার অফ ইন্টেলিজেন্স" নামক প্রবন্ধে প্রস্তাব করেছিলেন। ARC মূল্যায়নটি মানুষের বুদ্ধিমত্তার মূল্যায়নের কাছাকাছি হওয়ার জন্য ডিজাইন করা হয়েছে:
আমরা অ্যালগরিদমিক ইনফরমেশন থিওরির উপর ভিত্তি করে বুদ্ধিমত্তার একটি নতুন সংজ্ঞা দিয়েছি, যেখানে বুদ্ধিমত্তা হলো দক্ষতা অর্জনের ক্ষমতা এবং এর পরিধি, সাধারণীকরণের অসুবিধা, পূর্ব জ্ঞান এবং অভিজ্ঞতার ধারণাগুলোর উপর জোর দেওয়া হয়েছে। এই সংজ্ঞার উপর ভিত্তি করে, আমরা একটি সাধারণ AI বেঞ্চমার্কের নকশার জন্য কিছু নির্দেশিকা প্রস্তাব করেছি। অবশেষে, আমরা একটি বেঞ্চমার্ক দেখিয়েছি - অ্যাবস্ট্রাকশন অ্যান্ড রিজনিং কর্পাস (ARC), যা মানুষের সহজাত জ্ঞানের কাছাকাছি একটি নির্দিষ্ট পূর্ব জ্ঞানের উপর ভিত্তি করে তৈরি করা হয়েছে। আমরা মনে করি, ARC মানুষের মতো সাধারণ বুদ্ধিমত্তা পরিমাপ করতে পারে এবং AI সিস্টেম ও মানুষের মধ্যে একটি নিরপেক্ষ তুলনা করতে সক্ষম।
ARC AGI পুরস্কারটি ২০২৪ সালের জুনে শুরু হয়েছিল, যেখানে নির্দিষ্ট মানদণ্ড পূরণ করে ARC সমস্যার সমাধান করতে পারলে ১ মিলিয়ন ডলার পুরস্কার দেওয়ার ঘোষণা করা হয়েছিল। এই সমস্যার সমাধান করার জন্য ৮৫% নির্ভুলতার প্রয়োজন ছিল। আজ, OpenAI এবং ARC প্রাইজ নিম্নলিখিত ফলাফলগুলো প্রকাশ করেছে:
(এখানে একটি চিত্র ছিল, যা ফলাফলের গ্রাফ দেখাচ্ছিল)
O1 মডেলের আগে, OpenAI-এর সেরা মডেল GPT-4o মাত্র ৫% নির্ভুলতা অর্জন করতে পেরেছিল। OpenAI-এর নতুন যুক্তি মডেলের দ্রুত অগ্রগতি ARC পুরস্কারের সহ-প্রতিষ্ঠাতা মাইক নুপের মন্তব্যে স্পষ্ট:
- GPT-2 (২০১৯): ০%
- GPT-3 (২০২০): ০%
- GPT-4 (২০২৩): ২%
- GPT-4o (২০২৪): ৫%
- o1-preview (২০২৪): ২১%
- o1 high (২০২৪): ৩২%
- o1 Pro (২০২৪): প্রায় ৫০%
- o3 tuned low (২০২৪): ৭৬%
- o3 tuned high (২০২৪): ৮৭%
এই বছরের জুন মাস পর্যন্ত, ARC-AGI সমাধান করা খুবই কঠিন বলে মনে করা হতো। তবে, মাত্র কয়েক মাসের মধ্যেই এই ধারণা সম্পূর্ণভাবে পাল্টে গেছে। এমনকি যারা Q* এবং অন্যান্য যুক্তি পদ্ধতির ব্যাপারে আশাবাদী ছিলেন, তারাও এত দ্রুত সাফল্য আশা করেননি।
চোলেট ARC পুরস্কারের ওয়েবসাইটে আরও বিস্তারিত তথ্য প্রকাশ করেছেন:
আমরা দুটি ARC-AGI ডেটাসেটে O3 পরীক্ষা করেছি:
- অর্ধ-ব্যক্তিগত মূল্যায়ন: ১০০টি ব্যক্তিগত কাজ, যা অতিরিক্ত ফিটিং মূল্যায়ন করার জন্য ব্যবহার করা হয়েছে।
- পাবলিক মূল্যায়ন: ৪০০টি পাবলিক কাজ।
OpenAI-এর নির্দেশনায়, আমরা দুটি কম্পিউটেশনাল স্তরে পরীক্ষা করেছি, যেখানে নমুনার আকার পরিবর্তনশীল ছিল: ৬ (কার্যকরী মোড) এবং ১০২৪ (অকার্যকরী মোড)।
এখানে পরীক্ষার ফলাফল দেওয়া হলো:
(এখানে একটি টেবিল ছিল, যা পরীক্ষার ফলাফল দেখাচ্ছিল)
O3-এর উচ্চ কম্পিউটেশনাল খরচের নির্দিষ্ট ডেটা এখনো প্রকাশ করা হয়নি, কারণ এর মূল্য এবং কার্যকারিতা এখনো নির্ধারণ করা হয়নি। তবে, এর কম্পিউটেশনাল খরচ কম কম্পিউটেশনাল কনফিগারেশনের তুলনায় প্রায় ১৭২ গুণ বেশি।
উদাহরণস্বরূপ, এখানে একটি অমীমাংসিত সমস্যার চিত্র দেওয়া হলো:
(এখানে একটি চিত্র ছিল, যেখানে একটি ARC সমস্যার উদাহরণ দেখানো হয়েছিল)
অনেক সমস্যা মানুষের কাছে খুবই সহজ মনে হলেও, মডেলের জন্য এগুলো কঠিন। এই সমস্যাগুলো ইনপুট করার জন্য, রংগুলোকে সংখ্যায় কোড করা হয় এবং গ্রিড আকারে কন্টেক্সট ইনপুট হিসেবে দেওয়া হয়, যেমনটি গ্রেগ কামরাড উল্লেখ করেছেন।
প্রযুক্তিগতভাবে, পুরস্কারটি এখনো কেউ পায়নি, কারণ সমাধানের খরচ সীমা ছাড়িয়ে গেছে এবং এটি ওপেন সোর্স নয়। প্রতিযোগিতা এখনো চলছে। কয়েক বছরের মধ্যে, এই ধরনের বুদ্ধিমত্তা প্রায় বিনামূল্যে পাওয়া যাবে। বিনামূল্যে মানে, যুক্তির খরচ ব্যবহারকারীর বিজ্ঞাপনের ডেটার আর্থিক মূল্যের চেয়ে কম হবে।
বর্তমানে, ARC পুরস্কার ব্লগে O3-এর দাম (যা OpenAI-এর আলোচনায় O1-এর আপেক্ষিক দাম হিসেবে পরিবর্তন করা হয়েছে) O3 প্রযুক্তির কার্যকারিতা সম্পর্কে অনেক তথ্য প্রকাশ করে।
O3-এর গঠন, খরচ এবং প্রশিক্ষণ পদ্ধতি
ARC AGI দল সরাসরি OpenAI-এর সাথে কাজ করে তাদের মডেলের মূল্য নির্ধারণ করেছে। O3 API-তে আনুষ্ঠানিকভাবে চালু হওয়ার পরে এর চূড়ান্ত মূল্য ভিন্ন হতে পারে। যুক্তির প্রসারণের নিয়ম অনুসারে, ARC-AGI দল তাদের সমাধানের জন্য একটি অতিরিক্ত প্রয়োজনীয়তা যোগ করেছে। তাদের ব্লগ পোস্টে, দলটি মোট খরচ এবং প্রতিটি কাজের খরচ রেকর্ড করেছে, যা FLOPs-এর একটি প্রক্সি বা কম্পিউটেশনাল রিসোর্সের ব্যবহারের সরাসরি হিসাব।
এটি ARC পুরস্কারের ঘোষণার একটি নিয়মের সাথে সঙ্গতিপূর্ণ (যা ১ মিলিয়ন ডলার পুরস্কারের সাথে সম্পর্কিত নয়):
৫০০টি কাজ (পাবলিক মূল্যায়ন সেটের ৪০০টি কাজ এবং একটি নতুন অর্ধ-ব্যক্তিগত মূল্যায়ন সেটের ১০০টি কাজ) সমাধানের জন্য $10,000 USD হলো সর্বোচ্চ খরচ, যার মধ্যে বাণিজ্যিক API ব্যবহারের খরচও অন্তর্ভুক্ত।
পাবলিক বা অর্ধ-পাবলিক মূল্যায়ন সেটের ৫০০টি কাজের জন্য, O3-এর খরচ এই সীমার অনেক উপরে। ARC পুরস্কার অনুসারে, O3-এর প্রতিটি প্রশ্নের খরচ $1,000 এর বেশি। তারা মডেলের প্রকৃতি নিয়ে কিছু অনুমানও করেছেন। নিচের বিষয়গুলো O3-এর প্রশিক্ষণ কৌশল O1 থেকে আলাদা কিনা, সেই বিষয়ে জল্পনা-কল্পনা কমাতে সাহায্য করবে। চোলেট বিশেষভাবে উল্লেখ করেছেন যে, তিনি অনুমান করছেন:
বর্তমানে, আমরা শুধুমাত্র O3 কিভাবে কাজ করে, সে সম্পর্কে অনুমান করতে পারি। তবে, O3-এর মূল প্রক্রিয়াটি টোকেন স্পেসের মধ্যে স্বাভাবিক ভাষার প্রোগ্রাম অনুসন্ধান এবং প্রয়োগ করা। পরীক্ষার সময়, মডেলটি সম্ভাব্য চিন্তার চেইন (CoTs) স্থান অনুসন্ধান করে, যা কাজ সমাধানের জন্য প্রয়োজনীয় ধাপগুলো বর্ণনা করে। এটি আলফাজিরো-স্টাইলের মন্টে কার্লো ট্রি সার্চের মতো হতে পারে। O3-এর ক্ষেত্রে, অনুসন্ধানটি সম্ভবত কোনো মূল্যায়নকারী মডেল দ্বারা পরিচালিত হয়।
পুনরায় বলছি, MCTS (মন্টে কার্লো ট্রি সার্চ) এর উল্লেখ এবং অনুমান বিভ্রান্তিকর হতে পারে, তবে এটি বোধগম্য, কারণ অনেক বুদ্ধিমান মানুষ O1 এবং O3-এর একক ভাষার মডেলের মাধ্যমে অর্জিত ক্ষমতা দেখে বিস্মিত হয়েছেন। আমি সম্প্রতি একটি নিবন্ধে ব্যাখ্যা করেছি যে, কিভাবে এটি ব্যাপক আকারের রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণের মাধ্যমে সম্ভব হয়েছে, এবং কেন OpenAI-এর কিছু গ্রাফ যুক্তির পর্যায়ে কম্পিউটেশনাল খরচ সম্পর্কে বিভ্রান্তিকর। OpenAI-এর কর্মীরাও জোর দিয়েছেন যে, O3 "কেবলমাত্র রিইনফোর্সমেন্ট লার্নিং দ্বারা প্রশিক্ষিত একটি মডেল।"
তা সত্ত্বেও, আমরা ARC দলের রেকর্ড করা খরচের উপর ভিত্তি করে এবং OpenAI-এর O1-এর মূল্য (5000। মোট খরচকে প্রতি টোকেনের দাম দিয়ে ভাগ করলে দেখা যায়, মডেলটি প্রতিটি উত্তরের জন্য প্রায় ৮ কোটি টোকেন তৈরি করেছে, যা দীর্ঘ কন্টেক্সট মডেলের উন্নতি ছাড়া সম্ভব নয়। তাই, বিভিন্ন অনুসন্ধান কাঠামো নিয়ে জল্পনা শুরু হয়েছে।
ARC পুরস্কারের ব্লগ পোস্টের কিছু গুরুত্বপূর্ণ তথ্য এখানে উল্লেখ করা হলো:
OpenAI-এর নির্দেশনায়, আমরা দুটি কম্পিউটেশনাল স্তরে পরীক্ষা করেছি, যেখানে নমুনার আকার পরিবর্তনশীল ছিল: ৬ (কার্যকরী মোড) এবং ১০২৪ (অকার্যকরী মোড)।
SemiAnalysis-এর মতে, O1 Pro self-consistency পদ্ধতি বা consensus@N পরীক্ষা ব্যবহার করে, যেখানে একই প্রশ্নের একাধিক সমান্তরাল উত্তরের মধ্যে সবচেয়ে সাধারণ উত্তরটি বেছে নেওয়া হয়। এখানে, নমুনার আকার N consensus@N-এর মানের সাথে সম্পর্কিত হতে পারে। এটি ইঙ্গিত দেয় যে, O3-এর মূল্যায়ন কনফিগারেশন O1 Pro-এর কাছাকাছি, যা গ্রাহকরা ব্যবহার করতে পারেন। এর মধ্যে ৬ গুণ কম্পিউটেশনাল ক্ষমতা এবং প্রতিটি প্রশ্নের জন্য ১০২৪ গুণ কম্পিউটেশনাল ক্ষমতা রয়েছে।
এই যুক্তির আকার সাধারণ ব্যবহারকারীদের জন্য দীর্ঘ সময়ের জন্য উপলব্ধ হবে না। বেশিরভাগ ব্যবহারকারী শুধুমাত্র একবার জেনারেশন থেকে consensus@10 পর্যন্ত ফলাফল পাবেন, যা O1 মডেলের "পেশাদার" সংস্করণের উপর নির্ভর করে।
যদি প্রতি মিলিয়ন আউটপুট টোকেনের দাম $60 থাকে, তাহলে ১০২৪টি স্ট্রিম দিয়ে ভাগ করলে দেখা যায়, মডেলটি প্রতিটি উত্তরের জন্য প্রায় ৭৮,০০০ টোকেন তৈরি করে। বাস্তবে, O3 একটি বড় বেস মডেল থেকেও উপকৃত হয়েছে। কারণ, OpenAI-এর লাইভস্ট্রিমে দেখানো লগারিদমিক কম্পিউটেশনাল খরচ থেকে দেখা যায়, O1-এর কম্পিউটেশনাল খরচ উল্লেখযোগ্যভাবে বেড়েছে। বড় বেস মডেল ব্যবহার করলে, এই সংখ্যাগুলো স্বাভাবিক, এবং এর মধ্যে অতিরিক্ত "অনুসন্ধান" উপাদান যোগ করার কোনো ইঙ্গিত নেই।
সাম্প্রতিক বছরগুলোতে ডিপ লার্নিংয়ের অগ্রগতি মূলত একটি সম্ভাবনাময় ক্ষেত্র খুঁজে বের করে সেটিতে ক্রমাগত উন্নতি করার উপর নির্ভর করে। প্রথম অগ্রগতিটি এসেছিল ইন্টারনেট-স্কেল প্রি-ট্রেনিং থেকে। এখন, OpenAI রিইনফোর্সমেন্ট লার্নিং প্রশিক্ষণ এবং দীর্ঘ কন্টেক্সট যুক্তির মাধ্যমে একটি নতুন পথ খুঁজে পেয়েছে। O1 প্রকাশের মাত্র তিন মাসের মধ্যে O3 প্রকাশ করা হয়েছে, তাই সবচেয়ে সহজ ব্যাখ্যা হলো, এটি একই গঠন এবং প্রশিক্ষণ পদ্ধতি ব্যবহার করেছে, শুধু এর আকার বড়।
কোনো প্রমাণ নেই যে, O3 ট্রি সার্চ যুক্ত করে তার যুক্তির কাঠামো পরিবর্তন করেছে। এই ধরনের সব দাবি শুধু শোনা কথা। যুক্তির প্রসারণের মূল নিয়ম হলো, একই একক স্ট্রিম জেনারেশন থেকে আরও বেশি স্যাম্পল নিলে কর্মক্ষমতা বাড়ে।
এখানে মূল প্রশ্ন হলো, O3-এর বেস মডেলটি কি Orion (OpenAI-এর অভ্যন্তরীণ কোডনাম, সম্ভবত GPT-5) নাকি নতুন বেস মডেলটি শুধুমাত্র প্রশিক্ষণের সময় Orion থেকে উপকৃত হয়েছে? যদি বেস মডেলের আকার ২ থেকে ৫ গুণ বাড়ে, তাহলে ARC পুরস্কারে রিপোর্ট করা API মূল্য অনুযায়ী, এই ডেটাগুলো সম্পূর্ণভাবে প্রত্যাশিত।
O3 সম্পর্কে এখনো অনেক অনিশ্চয়তা রয়েছে। ARC দলের প্রকাশিত গ্রাফে, O3 মডেলের পাশে "(tuned)" লেখা আছে, কিন্তু O3 সম্পর্কে বিস্তারিত কোনো তথ্য দেওয়া হয়নি। তবে, যখন আমরা অগ্রগতির দিকে নজর দিই, তখন এটা স্পষ্ট যে, O1 স্তরের মডেলগুলো দীর্ঘকাল ধরে থাকবে।
সবশেষে, এখানে একটি ARC পুরস্কারের উদাহরণ দেওয়া হলো, যা O3 সমাধান করতে পারেনি। এটি খুবই সহজ।
(এখানে একটি চিত্র ছিল, যেখানে একটি ARC সমস্যার উদাহরণ দেখানো হয়েছিল)
আমাদের এখনো অনেক পথ যেতে হবে, তবে আপনাদের উৎসাহিত হওয়া উচিত এবং আশা করা উচিত যে, এই মডেলগুলো খুব শীঘ্রই ব্যাপকভাবে ব্যবহার করা যাবে। AI ক্রমাগত উন্নতি করবে, এমনটা ধরে নেওয়াই সবচেয়ে নিরাপদ।
২০২৪: RL-এর প্রত্যাবর্তন
আজ সকালে, Anthropic একটি ভিডিও প্রকাশ করেছে, যেখানে Anthropic তৈরির প্রক্রিয়া নিয়ে আলোচনা করা হয়েছে, এবং এতে কয়েকজন সহ-প্রতিষ্ঠাতাও অংশ নিয়েছেন। সেখানে একটি অপ্রত্যাশিত তথ্য সহ-প্রতিষ্ঠাতা এবং CEO ডারিও অ্যামোদি শেয়ার করেছেন:
"...এই মডেলগুলোকে প্রসারিত করার মূল কারণ হলো, এদের বুদ্ধি এখনো RLHF (মানুষের প্রতিক্রিয়ার মাধ্যমে রিইনফোর্সমেন্ট লার্নিং) করার মতো যথেষ্ট নয়।"
আধুনিক RLHF ধারণার অন্যতম প্রতিষ্ঠাতা হিসেবে, ডারিও সম্ভবত আগে থেকেই বুঝতে পেরেছিলেন যে, ফাইন-টিউনিং কৌশলগুলোর অগ্রগতি খুব শীঘ্রই আসছে। RLHF এর সম্ভাবনা সম্পর্কে তার এই ধারণা বেশিরভাগ অনুশীলনকারীর ধারণার চেয়েও অনেক বেশি বিস্তৃত এবং গভীর।
এ বছর, রিইনফোর্সমেন্ট লার্নিং (RL) এবং এর সাথে সম্পর্কিত পদ্ধতিগুলো নিঃসন্দেহে AI-এর কেন্দ্রবিন্দুতে ফিরে এসেছে।
এই নিবন্ধটি লেখার সময়, আমি নিজেকে ২০২৫ সালে এই ধরনের একটি যুক্তিভিত্তিক ভাষা মডেল প্রশিক্ষণ দেওয়ার জন্য রাজি করিয়েছি। ২০২৪ সালে প্রযুক্তি কোম্পানিগুলোর জন্য স্ট্যান্ডার্ড প্রি-ট্রেনিং একটি মৌলিক প্রয়োজনীয়তা হয়ে দাঁড়িয়েছে। এটা আশা করা যায় যে, O1-এর মতো মডেলগুলো ভবিষ্যতে দীর্ঘ সময়ের জন্য AI টুলবক্সের ডিফল্ট টুল হিসেবে ব্যবহৃত হবে। আমি এই নতুন বিশ্ব দৃষ্টিভঙ্গিকে গ্রহণ করতে এবং মডেল প্রশিক্ষণের কার্যকারিতা সম্পর্কে জানতে খুবই আগ্রহী।