- Published on
স্ট্যানফোর্ড-অধ্যয়ন-চ্যাটজিপিটি-কর্মক্ষমতা-অভিজ্ঞতা-হ্রাস
চ্যাটজিপিটি কর্মক্ষমতা নিয়ে স্ট্যানফোর্ড এবং ইউসি বার্কলে গবেষণা
স্ট্যানফোর্ড ইউনিভার্সিটি এবং ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে-এর গবেষকদের দ্বারা হার্ভার্ড ডেটা সায়েন্স রিভিউতে প্রকাশিত "চ্যাটজিপিটি বিহেভিয়ার ওভার টাইম" শীর্ষক একটি সাম্প্রতিক গবেষণাপত্রে GPT-3.5 এবং GPT-4-এর কর্মক্ষমতা এবং আচরণের উল্লেখযোগ্য পরিবর্তন প্রকাশ করা হয়েছে। এই গবেষণায়, গাণিতিক সমস্যা সমাধান, কোড জেনারেশন, মাল্টি-হপ জ্ঞান-ভিত্তিক প্রশ্নের উত্তর, ইউএস মেডিকেল লাইসেন্সিং পরীক্ষা এবং মাল্টি-হপ জ্ঞান-ভিত্তিক প্রশ্নের উত্তর সহ সাতটি কাজ জুড়ে এই মডেলগুলি পরীক্ষা করা হয়েছে।
কর্মক্ষমতার পরিবর্তন
গবেষণায় দেখা গেছে যে, তিন মাসের মধ্যে GPT-3.5 এবং GPT-4 উভয় মডেলের কর্মক্ষমতার উল্লেখযোগ্য পরিবর্তন হয়েছে। বিশেষ করে, প্রাইম এবং কম্পোজিট সংখ্যা সনাক্তকরণে GPT-4-এর নির্ভুলতা মার্চ মাসে ৮৪% থেকে কমে জুনে ৫১%-এ নেমে এসেছে। এই হ্রাসের কারণ হিসেবে "চেইন অফ থট" প্রম্পটগুলি অনুসরণ করার ক্ষমতা দুর্বল হয়ে যাওয়াকে আংশিকভাবে দায়ী করা হয়েছে। মজার বিষয় হল, একই সময়ে GPT-3.5 এই নির্দিষ্ট কাজে উন্নতি দেখিয়েছে।
অন্যান্য উল্লেখযোগ্য পরিবর্তনের মধ্যে রয়েছে:
- জুনে সংবেদনশীল প্রশ্ন এবং মতামত সমীক্ষার উত্তর দিতে GPT-4-এর আগ্রহ হ্রাস।
- মাল্টি-স্টেপ যুক্তির সমস্যা সমাধানে GPT-4-এর উন্নতি, যেখানে GPT-3.5 এই ধরনের কাজে হ্রাস দেখিয়েছে।
- উভয় মডেলের জন্য কোড জেনারেশনে ফরম্যাটিং ত্রুটি বৃদ্ধি।
- ব্যবহারকারীর নির্দেশাবলী অনুসরণ করার ক্ষেত্রে GPT-4-এর ক্ষমতা হ্রাস।
মূল্যায়ন পদ্ধতি
গবেষকরা বৈচিত্র্য এবং প্রতিনিধিত্বের নীতির ভিত্তিতে GPT-3.5 এবং GPT-4-এর মূল্যায়ন করেছেন। সাতটি প্রধান ডোমেইন জুড়ে পরীক্ষাগুলি পরিচালিত হয়েছিল:
- গাণিতিক সমস্যা
- সংবেদনশীল/বিপজ্জনক বিষয়
- মতামত সমীক্ষা
- মাল্টি-হপ জ্ঞান-ভিত্তিক প্রশ্ন
- কোড জেনারেশন
- ইউএস মেডিকেল লাইসেন্সিং পরীক্ষা
- ভিজ্যুয়াল রিজনিং
আচরণগত পরিবর্তনগুলি আরও ভালভাবে বোঝার জন্য, দলটি টাস্ক-স্বাধীন নির্দেশাবলী অনুসরণ করার উপর দৃষ্টি নিবদ্ধ করে একটি নতুন বেঞ্চমার্ক তৈরি করেছে। এই বেঞ্চমার্কে চারটি সাধারণ নির্দেশের প্রকার অন্তর্ভুক্ত ছিল: উত্তরের নিষ্কাশন, ক্ষমা চাওয়া বন্ধ করা, নির্দিষ্ট শব্দ এড়িয়ে যাওয়া এবং বিষয়বস্তু ফিল্টারিং।
নির্দেশাবলী অনুসরণ
এই পরীক্ষাগুলি নির্দিষ্ট দক্ষতা বা জ্ঞান নির্বিশেষে মডেলগুলির নির্দেশাবলী অনুসরণ করার ক্ষমতা মূল্যায়ন করার জন্য ডিজাইন করা হয়েছিল। মার্চ মাসে, GPT-4 বেশিরভাগ স্বতন্ত্র নির্দেশাবলী ভালভাবে অনুসরণ করতে সক্ষম ছিল, কিন্তু জুন মাসের মধ্যে এটি সেগুলি উপেক্ষা করতে শুরু করে। উদাহরণস্বরূপ, উত্তর নিষ্কাশন নির্দেশের সম্মতি হার ৯৯.৫% থেকে প্রায় শূন্যে নেমে আসে। বিষয়বস্তু ফিল্টারিং নির্দেশের বিশ্বস্ততাও ৭৪.০% থেকে ১৯.০%-এ নেমে আসে।
কর্মক্ষমতা মেট্রিক্স
মডেলগুলির কর্মক্ষমতা সঠিকভাবে ক্যাপচার করার জন্য, দলটি প্রতিটি কাজের জন্য প্রাথমিক এবং পরিপূরক কর্মক্ষমতা মেট্রিক্স প্রতিষ্ঠা করেছে। উদাহরণস্বরূপ:
- গাণিতিক সমস্যা এবং ইউএসএমএলই-এর জন্য নির্ভুলতাকে প্রাথমিক মেট্রিক হিসাবে ব্যবহার করা হয়েছিল।
- কোড জেনারেশনের জন্য এক্সিকিউটেবল আউটপুট কোডের অনুপাত ছিল প্রাথমিক মেট্রিক।
চারটি নির্দেশনার প্রকারভেদে চ্যাটজিপিটি-এর কর্মক্ষমতা
উত্তর নিষ্কাশন
এই নির্দেশনার জন্য মডেলটিকে একটি প্রদত্ত পাঠ্য বা প্রশ্নের মধ্যে সঠিকভাবে উত্তরটি খুঁজে বের করতে এবং স্পষ্টভাবে চিহ্নিত করতে হয়। GPT-4 মার্চ মাসে এই ধরনের নির্দেশের সাথে উচ্চ সম্মতি দেখিয়েছিল, যেখানে প্রায় ৯৯.৫% প্রশ্নের সঠিকভাবে ফরম্যাট করা উত্তর পাওয়া গেছে। তবে, জুনের মধ্যে এই হার কমে যায়, যা পরিষ্কার নির্দেশিকা ফরম্যাটগুলি পরিচালনা করার ক্ষেত্রে মডেলটির ক্ষমতার হ্রাস নির্দেশ করে।
ক্ষমা চাওয়া বন্ধ করুন
এই নির্দেশিকাটি মডেলের ক্ষমা ব্যবহার করা বা নিজেকে একটি এআই হিসাবে চিহ্নিত করা এড়ানোর ক্ষমতা পরীক্ষা করে যখন স্পষ্টভাবে তা করতে বলা হয়। মার্চ মাসে, GPT-4 সাধারণত এই নির্দেশনা অনুসরণ করত, কিন্তু জুনের মধ্যে, এটি প্রায়শই এর লঙ্ঘন করত, এমনকি বিশেষভাবে নির্দেশিত হওয়ার পরেও।
নির্দিষ্ট শব্দ এড়িয়ে চলুন
এই নির্দেশনাটি মডেলের নমনীয়তা এবং বিস্তারিত মনোযোগ পরীক্ষা করে, বিশেষ করে নির্দিষ্ট সীমাবদ্ধতা মেনে চলার ক্ষেত্রে। মার্চ থেকে জুনে হ্রাস GPT-4-এর জটিল নির্দেশাবলী পরিচালনা করার ক্ষমতা হ্রাসের ইঙ্গিত দেয়।
বিষয়বস্তু ফিল্টারিং
এই নির্দেশনার জন্য মডেলটিকে নির্দিষ্ট বিষয় বা সংবেদনশীল তথ্য বাদ দিতে হয়। মার্চ মাসে, GPT-4 এই ফিল্টারিং প্রয়োজনীয়তাগুলি মূলত মেনে চলত, কিন্তু জুনের মধ্যে, এর ফিল্টারিং ক্ষমতা উল্লেখযোগ্যভাবে হ্রাস পায়, যেখানে প্রায় ১৯% সংবেদনশীল বিষয় সঠিকভাবে পরিচালনা করা হয়েছিল।
গবেষণার প্রভাব
গবেষকরা উল্লেখ করেছেন যে, GPT-3.5 এবং GPT-4 যেহেতু ক্লোজড-সোর্স মডেল, তাই OpenAI তাদের প্রশিক্ষণ ডেটা এবং প্রক্রিয়া প্রকাশ করে না। এই স্বচ্ছতার অভাবের কারণে, ব্যবহারকারীরা প্রতিটি বড় আপডেটের সাথে ঘটে যাওয়া পরিবর্তনগুলি সম্পর্কে প্রায়শই অবগত থাকেন না। এই গবেষণাটি ডেভেলপার এবং ব্যবহারকারীদের চ্যাটজিপিটি-এর কর্মক্ষমতা এবং আচরণগত গতিশীলতা বুঝতে সাহায্য করতে পারে, যা মডেলের নিরাপত্তা এবং বিষয়বস্তুর সত্যতা নিশ্চিত করার জন্য গুরুত্বপূর্ণ। গবেষণাটি এই মডেলগুলির ধারাবাহিকতা এবং নির্ভরযোগ্যতা বজায় রাখার চ্যালেঞ্জগুলি তুলে ধরে, বিশেষ করে দ্রুত পরিবর্তনশীল পরিবেশে।