OpenAI মডেলের গোপন তথ্য ফাঁস: মাইক্রোসফটের গবেষণাপত্রে GPT4o-এর আকার প্রকাশ

ওপেনএআই মডেলের প্যারামিটার ফাঁস: মাইক্রোসফটের গবেষণাপত্রে GPT4o-এর আকার প্রকাশ

প্রযুক্তি বিশ্বে, বৃহৎ ভাষার মডেলগুলির (LLM) প্যারামিটার সংখ্যা সবসময় গোপন রাখা হয়। সম্প্রতি, মাইক্রোসফট এবং ওয়াশিংটন বিশ্ববিদ্যালয়ের গবেষকদের একটি যৌথ গবেষণাপত্র থেকে OpenAI-এর বেশ কয়েকটি মডেলের প্যারামিটার সম্পর্কিত তথ্য প্রকাশ পেয়েছে, যা ব্যাপক আলোচনার জন্ম দিয়েছে।

প্যারামিটার প্রকাশ

গবেষণাপত্রটিতে প্রকাশিত মূল তথ্যগুলো হলো:

GPT-4: প্রায় ১.৭৬ ট্রিলিয়ন প্যারামিটার
GPT-4o: প্রায় ২০০ বিলিয়ন প্যারামিটার
GPT-4o mini: প্রায় ৮০ বিলিয়ন প্যারামিটার
o1-preview: প্রায় ৩০০ বিলিয়ন প্যারামিটার
o1-mini: প্রায় ১০০ বিলিয়ন প্যারামিটার
Claude 3.5 Sonnet: প্রায় ১৭৫০ বিলিয়ন প্যারামিটার

গবেষকরা জানিয়েছেন, এই প্যারামিটার সংখ্যাগুলো আনুমানিক।

GPT-4o সিরিজের প্যারামিটার নিয়ে আলোচনা

আশ্চর্যজনকভাবে, GPT-4o সিরিজের প্যারামিটার সংখ্যা প্রত্যাশার চেয়ে অনেক কম, বিশেষ করে মিনি সংস্করণে মাত্র ৮০ বিলিয়ন প্যারামিটার রয়েছে। অনেকে মনে করছেন, GPT-4o mini সম্ভবত মিক্সচার অফ এক্সপার্টস (MoE) আর্কিটেকচার ব্যবহার করেছে, যেখানে কার্যকর প্যারামিটার সংখ্যা ৮০ বিলিয়ন হলেও মডেলের মোট প্যারামিটার সংখ্যা ৪০০ বিলিয়ন পর্যন্ত হতে পারে। এই ধরনের আর্কিটেকচার ছোট মডেলগুলোকে দ্রুত কাজ করার পাশাপাশি বেশি জ্ঞান অর্জন করতে সাহায্য করে।

Claude 3.5 Sonnet-এর প্যারামিটার তুলনা

এছাড়াও, মন্তব্যকারীরা উল্লেখ করেছেন যে Claude 3.5 Sonnet-এর প্যারামিটার সংখ্যা GPT-3 davinci-এর প্রায় সমান, যা বিভিন্ন মডেলের কর্মক্ষমতা এবং আকারের মধ্যে সম্পর্ক নিয়ে নতুন করে ভাবনার সৃষ্টি করেছে।

MEDEC বেঞ্চমার্ক: চিকিৎসা ত্রুটি সনাক্তকরণের নতুন মানদণ্ড

প্যারামিটার ফাঁস হওয়া এই গবেষণাপত্রটি মূলত MEDEC1 নামক একটি মূল্যায়ন বেঞ্চমার্ক নিয়ে, যা বৃহৎ ভাষার মডেলগুলির চিকিৎসা ত্রুটি সনাক্তকরণ এবং সংশোধনের ক্ষমতা মূল্যায়ন করে। এই বেঞ্চমার্কটি ক্লিনিক্যাল নোটগুলোতে থাকা ত্রুটির উপর ফোকাস করে, যেখানে রোগ নির্ণয়, ব্যবস্থাপনা, চিকিৎসা, ওষুধ এবং রোগের কারণ সহ পাঁচটি দিক অন্তর্ভুক্ত রয়েছে।

ডেটা উৎস ও বৈশিষ্ট্য

MEDEC ডেটাসেটে তিনটি আমেরিকান হাসপাতালের ৪৮৮টি ক্লিনিক্যাল নোট থেকে মোট ৩৮৪৮টি ক্লিনিক্যাল টেক্সট রয়েছে। এই ডেটাগুলো আগে কোনো বৃহৎ ভাষার মডেল ব্যবহার করেনি, যা মূল্যায়নের বিশ্বাসযোগ্যতা নিশ্চিত করে। বর্তমানে, এই ডেটাসেটটি MEDIQA-CORR শেয়ার্ড টাস্কে ব্যবহার করা হচ্ছে, যেখানে ১৭টি অংশগ্রহণকারী সিস্টেমের কর্মক্ষমতা মূল্যায়ন করা হচ্ছে।

পরীক্ষা ও ফলাফল

গবেষক দল MEDEC ডেটাসেট ব্যবহার করে o1-preview, GPT-4, Claude 3.5 Sonnet, এবং Gemini 2.0 Flash সহ বিভিন্ন উন্নত মডেল পরীক্ষা করেছেন। একই সাথে, তারা দুইজন বিশেষজ্ঞ চিকিৎসককে একই ত্রুটি সনাক্তকরণের কাজে যুক্ত করে মানুষ এবং মেশিনের মধ্যে তুলনা করেছেন।

ফলাফলে দেখা গেছে, বৃহৎ ভাষার মডেলগুলো চিকিৎসা ত্রুটি সনাক্তকরণ এবং সংশোধনে ভালো কাজ করলেও, মানুষের তুলনায় এখনো পিছিয়ে আছে। এটি প্রমাণ করে যে, MEDEC একটি চ্যালেঞ্জিং মূল্যায়ন বেঞ্চমার্ক।

গবেষণাপত্রের মূল বিষয়: চিকিৎসা ক্ষেত্রে LLM-এর ব্যবহার ও চ্যালেঞ্জ

গবেষণাপত্রে উল্লেখ করা হয়েছে, আমেরিকার চিকিৎসা সংস্থাগুলোর সমীক্ষায় দেখা গেছে, প্রতি পাঁচজন রোগীর মধ্যে একজন ক্লিনিক্যাল নোট পড়ার সময় ভুল খুঁজে পান। এই ভুলগুলোর মধ্যে ৪০% বেশ গুরুতর এবং সবচেয়ে বেশি ভুল হয় রোগ নির্ণয়ের ক্ষেত্রে।

চিকিৎসা নথিতে LLM-এর ব্যবহার ও ঝুঁকি

চিকিৎসা নথির কাজ, যেমন ক্লিনিক্যাল নোট তৈরি করার জন্য বৃহৎ ভাষার মডেলের ব্যবহার বাড়ছে, তাই LLM থেকে প্রাপ্ত তথ্যের সঠিকতা ও নিরাপত্তা নিশ্চিত করা জরুরি। LLM ভুল বা মিথ্যা তথ্য দিতে পারে, যা ক্লিনিক্যাল সিদ্ধান্তের উপর গুরুতর প্রভাব ফেলতে পারে।

MEDEC বেঞ্চমার্কের তাৎপর্য

এই সমস্যাগুলো সমাধান করার জন্য এবং চিকিৎসা সংক্রান্ত কাজে LLM-এর নিরাপত্তা নিশ্চিত করার জন্য কঠোর যাচাইকরণ পদ্ধতি প্রয়োজন। MEDEC বেঞ্চমার্কের মূল উদ্দেশ্য হল ক্লিনিক্যাল টেক্সটে থাকা ত্রুটি সনাক্তকরণ এবং সংশোধনে মডেলের ক্ষমতা মূল্যায়ন করা।

MEDEC ডেটাসেট তৈরি

MEDEC ডেটাসেটে বিভিন্ন চিকিৎসা ক্ষেত্র থেকে ৩৮৪৮টি ক্লিনিক্যাল টেক্সট রয়েছে, যা ৮ জন মেডিকেল লেবেলার দ্বারা চিহ্নিত করা হয়েছে। এই ডেটাসেটে পাঁচ ধরনের ত্রুটি রয়েছে:

রোগ নির্ণয় (Diagnosis): ভুল রোগ নির্ণয় করা।
ব্যবস্থাপনা (Management): ভুল ব্যবস্থাপনা পদক্ষেপ দেওয়া।
ঔষধ থেরাপি (Pharmacotherapy): ভুল ঔষধ থেরাপির পরামর্শ দেওয়া।
চিকিৎসা (Treatment): ভুল চিকিৎসার পরামর্শ দেওয়া।
রোগের কারণ (Causal Organism): ভুল জীবাণু বা রোগের কারণ উল্লেখ করা।

এই ত্রুটিগুলোর প্রকারভেদ মেডিকেল বোর্ডের পরীক্ষায় আসা সাধারণ প্রশ্নগুলোর উপর ভিত্তি করে নির্বাচন করা হয়েছে।

ডেটা তৈরির পদ্ধতি

এই ডেটাসেটটি দুটি পদ্ধতিতে তৈরি করা হয়েছে:

পদ্ধতি #১ (MS): মেডকিউএ সংগ্রহ থেকে মেডিকেল বোর্ডের পরীক্ষার প্রশ্ন ব্যবহার করে, যেখানে মেডিকেল ব্যাকগ্রাউন্ডের লেবেলাররা ভুল উত্তরগুলো টেক্সটে যুক্ত করেন।
পদ্ধতি #২ (UW): ওয়াশিংটন বিশ্ববিদ্যালয়ের তিনটি হাসপাতালের ক্লিনিক্যাল নোটের ডেটাবেস ব্যবহার করে, যেখানে মেডিকেল শিক্ষার্থীরা হাতে-কলমে ভুল তথ্য যোগ করেন।

উভয় পদ্ধতিতেই কঠোর মান নিয়ন্ত্রণ করা হয়েছে, যাতে ডেটার সঠিকতা ও নির্ভরযোগ্যতা নিশ্চিত করা যায়।

চিকিৎসা ত্রুটি সনাক্তকরণ ও সংশোধনের পদ্ধতি

মডেলের চিকিৎসা ত্রুটি সনাক্তকরণ এবং সংশোধনের ক্ষমতা মূল্যায়নের জন্য গবেষকরা এই প্রক্রিয়াটিকে তিনটি উপ-কাজে ভাগ করেছেন:

উপ-কাজ A: ত্রুটির চিহ্ন চিহ্নিত করা (০: ত্রুটি নেই; ১: ত্রুটি আছে)।
উপ-কাজ B: ত্রুটিযুক্ত বাক্যটি বের করা।
উপ-কাজ C: ত্রুটিযুক্ত বাক্যটির জন্য সঠিক তথ্য তৈরি করা।

গবেষক দল LLM-এর উপর ভিত্তি করে সমাধান তৈরি করেছেন এবং দুটি ভিন্ন প্রম্পট ব্যবহার করে প্রয়োজনীয় আউটপুট তৈরি করেছেন।

পরীক্ষা ও ফলাফল

গবেষকরা Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini, এবং o1-preview সহ বিভিন্ন ভাষার মডেল নিয়ে পরীক্ষা করেছেন।

পরীক্ষার ফলাফল বিশ্লেষণ

পরীক্ষার ফলাফলে দেখা গেছে, Claude 3.5 Sonnet ত্রুটির চিহ্ন সনাক্তকরণ এবং ত্রুটিযুক্ত বাক্য সনাক্তকরণে ভালো কাজ করেছে। o1-preview ত্রুটি সংশোধনে সেরা পারফর্ম করেছে। তবে, সব মডেলই চিকিৎসা ত্রুটি সনাক্তকরণ এবং সংশোধনে মানুষের চেয়ে পিছিয়ে আছে।

ফলাফল আরও দেখায় যে, মডেলগুলোর নির্ভুলতা নিয়ে সমস্যা রয়েছে এবং অনেক ক্ষেত্রে তারা অতিরিক্ত ত্রুটি সনাক্ত করেছে (যা হ্যালুসিনেশন নামে পরিচিত)। এছাড়াও, ত্রুটি সনাক্তকরণ এবং ত্রুটি সংশোধনের পারফরম্যান্সের মধ্যে পার্থক্য দেখা গেছে।

ত্রুটির প্রকারভেদ বিশ্লেষণ

বিভিন্ন ধরনের ত্রুটি সনাক্তকরণ এবং সংশোধনের ক্ষেত্রে, o1-preview ত্রুটির চিহ্ন এবং বাক্য সনাক্তকরণে ভালো ফল করলেও, ডাক্তাররা নির্ভুলতার ক্ষেত্রে এগিয়ে ছিলেন।

ভবিষ্যৎ গবেষণা

গবেষকরা জানিয়েছেন, তারা ভবিষ্যতে আরও উদাহরণ ব্যবহার করে এবং প্রম্পট অপটিমাইজ করে মডেলের চিকিৎসা ত্রুটি সনাক্তকরণ এবং সংশোধনের ক্ষমতা উন্নত করার চেষ্টা করবেন।