- Published on
افشای پارامترهای مدل OpenAI: مقاله مایکروسافت اندازه GPT4o را فاش می کند
پارامترهای مدل های OpenAI فاش شد
در دنیای فناوری، اندازه پارامترهای مدلهای زبان بزرگ (LLM) همواره یک راز بوده است. با این حال، اخیراً یک مقاله پزشکی که توسط تیمی از مایکروسافت و دانشگاه واشنگتن منتشر شده است، به طور ناخواسته اطلاعات پارامترهای چندین مدل OpenAI را فاش کرده و توجه گستردهای را به خود جلب کرده است.
پارامترهای فاش شده
اطلاعات کلیدی که در این مقاله فاش شده است عبارتند از:
- GPT-4: حدود 1.76 تریلیون پارامتر
- GPT-4o: حدود 200 میلیارد پارامتر
- GPT-4o mini: حدود 80 میلیارد پارامتر
- o1-preview: حدود 300 میلیارد پارامتر
- o1-mini: حدود 100 میلیارد پارامتر
- Claude 3.5 Sonnet: حدود 175 میلیارد پارامتر
شایان ذکر است که محققان اعلام کردهاند که این پارامترها تخمینی هستند.
بحث و جدل پیرامون پارامترهای سری GPT-4o
نکته شگفتانگیز این است که حجم پارامترهای سری GPT-4o بسیار کمتر از حد انتظار است، به ویژه نسخه مینی که تنها 80 میلیارد پارامتر دارد. برخی از کاربران اینترنتی حدس می زنند که GPT-4o mini ممکن است از معماری مدل ترکیبی متخصصان (MoE) استفاده کند، به طوری که پارامترهای فعال شده واقعی 80 میلیارد هستند، اما پارامترهای کلی مدل ممکن است به 400 میلیارد برسد. این معماری به مدلهای کوچکتر امکان میدهد دانش بیشتری کسب کنند و در عین حال سرعت اجرا را حفظ کنند.
مقایسه پارامترهای Claude 3.5 Sonnet
علاوه بر این، برخی از مفسران اشاره کردهاند که حجم پارامترهای Claude 3.5 Sonnet با GPT-3 davinci قابل مقایسه است، که باعث شده است مردم بیشتر به رابطه بین عملکرد مدلهای مختلف و اندازه آنها فکر کنند.
معیار MEDEC: استاندارد جدیدی برای تشخیص خطاهای پزشکی
این مقاله که پارامترها در آن فاش شده است، در واقع در مورد یک معیار ارزیابی به نام MEDEC1 است که هدف آن ارزیابی عملکرد مدلهای زبان بزرگ در وظایف تشخیص و اصلاح خطاهای پزشکی است. این معیار بر خطاهای موجود در یادداشتهای بالینی تمرکز دارد و پنج حوزه را پوشش میدهد: تشخیص، مدیریت، درمان، دارودرمانی و عوامل بیماریزا.
منبع و ویژگیهای دادهها
مجموعه داده MEDEC شامل 488 یادداشت بالینی از سه سیستم بیمارستانی در ایالات متحده است که در مجموع 3848 متن بالینی را شامل میشود. این دادهها قبلاً توسط هیچ مدل زبان بزرگی استفاده نشده بود و این امر اصالت و قابلیت اطمینان ارزیابی را تضمین میکند. در حال حاضر، این مجموعه داده در MEDIQA-CORR برای ارزیابی عملکرد 17 سیستم شرکت کننده استفاده میشود.
آزمایش و نتایج
تیم تحقیقاتی از مجموعه داده MEDEC برای آزمایش مدلهای پیشرفته مختلف، از جمله o1-preview، GPT-4، Claude 3.5 Sonnet و Gemini 2.0 Flash استفاده کردند. در عین حال، از دو پزشک متخصص نیز دعوت شد تا در همان کار تشخیص خطا شرکت کنند تا مقایسه انسان و ماشین انجام شود.
نتایج نشان داد که اگرچه مدلهای زبان بزرگ در تشخیص و اصلاح خطاهای پزشکی عملکرد خوبی دارند، اما هنوز در مقایسه با پزشکان انسانی فاصله دارند. این نشان میدهد که MEDEC یک معیار ارزیابی چالش برانگیز است.
محتوای اصلی مقاله: کاربردها و چالشهای LLM در حوزه پزشکی
این مقاله خاطرنشان میکند که بررسیهای انجام شده در مراکز پزشکی ایالات متحده نشان میدهد که از هر پنج بیماری که یادداشتهای بالینی را میخوانند، یک نفر خطایی را گزارش میکند. از این خطاها، 40 درصد نسبتاً جدی تلقی میشوند و شایعترین آنها خطاهای مربوط به تشخیص است.
کاربردها و خطرات LLM در اسناد پزشکی
با افزایش تعداد وظایف مستندسازی پزشکی (مانند تولید یادداشتهای بالینی) که توسط مدلهای زبان بزرگ انجام میشود، اطمینان از دقت و ایمنی اطلاعات خروجی LLM بسیار مهم است. LLM ها ممکن است توهم ایجاد کنند و محتوای نادرست یا ساختگی را خروجی دهند که می تواند تأثیر جدی بر تصمیم گیری های بالینی داشته باشد.
اهمیت معیار MEDEC
به منظور حل این مشکلات و اطمینان از ایمنی LLM در تولید محتوای پزشکی، روش های اعتبارسنجی دقیق ضروری است. معرفی معیار MEDEC با هدف ارزیابی توانایی مدلها در تشخیص و اصلاح خطاهای پزشکی در متون بالینی است.
ساخت مجموعه داده MEDEC
مجموعه داده MEDEC شامل 3848 متن بالینی از حوزههای مختلف پزشکی است که توسط 8 علامت گذار پزشکی علامت گذاری شده است. این مجموعه داده پنج نوع خطا را پوشش می دهد:
- تشخیص (Diagnosis): تشخیص ارائه شده نادرست است.
- مدیریت (Management): اقدامات بعدی ارائه شده برای مدیریت نادرست است.
- دارودرمانی (Pharmacotherapy): دارودرمانی توصیه شده نادرست است.
- درمان (Treatment): طرح درمان توصیه شده نادرست است.
- عامل بیماریزا (Causal Organism): ارگانیسم یا عامل بیماریزای مشخص شده نادرست است.
این انواع خطاها بر اساس رایج ترین انواع سوالات در امتحانات هیئت پزشکی انتخاب شده اند.
روشهای ایجاد دادهها
مجموعه داده با استفاده از دو روش ساخته شده است:
- روش شماره 1 (MS): با استفاده از سوالات امتحان هیئت پزشکی از مجموعه MedQA، علامت گذاران با سابقه پزشکی پاسخ های نادرست را در متون سناریو وارد می کنند.
- روش شماره 2 (UW): با استفاده از پایگاه داده یادداشت های بالینی واقعی از سه سیستم بیمارستانی دانشگاه واشنگتن، تیم دانشجویان پزشکی به طور دستی خطاها را در سوابق وارد می کنند.
هر دو روش تحت کنترل کیفیت دقیق قرار گرفتند تا از دقت و قابلیت اطمینان دادهها اطمینان حاصل شود.
روشهای تشخیص و اصلاح خطاهای پزشکی
به منظور ارزیابی عملکرد مدلها در وظایف تشخیص و اصلاح خطاهای پزشکی، محققان این فرآیند را به سه زیروظیفه تقسیم کردند:
- زیروظیفه A: پیش بینی علامت خطا (0: بدون خطا؛ 1: وجود خطا).
- زیروظیفه B: استخراج جمله حاوی خطا.
- زیروظیفه C: تولید محتوای اصلاح شده برای جمله حاوی خطا.
تیم تحقیقاتی بر اساس LLM راه حلی ساختند و از دو دستور مختلف برای تولید خروجی مورد نیاز استفاده کردند.
آزمایش و نتایج
مدلهای زبان
محققان بر روی مدلهای زبان مختلف از جمله Phi-3-7B، Claude 3.5 Sonnet، Gemini 2.0 Flash، ChatGPT، GPT-4، GPT-4o، o1-mini و o1-preview آزمایشاتی انجام دادند.
تجزیه و تحلیل نتایج آزمایش
نتایج آزمایش نشان داد که Claude 3.5 Sonnet در تشخیص علامت خطا و تشخیص جمله خطا عملکرد خوبی دارد. o1-preview در اصلاح خطاها بهترین عملکرد را داشت. با این حال، همه مدل ها در تشخیص و اصلاح خطاهای پزشکی هنوز از پزشکان انسانی عقب تر هستند.
نتایج همچنین نشان داد که مدلها در دقت مشکل دارند و در بسیاری از موارد وجود خطا را بیش از حد پیشبینی میکنند (یعنی توهم ایجاد میکنند). علاوه بر این، بین عملکرد طبقه بندی و عملکرد تولید اصلاح خطا اختلاف رتبه وجود دارد.
تجزیه و تحلیل انواع خطا
در زمینه تشخیص و اصلاح انواع مختلف خطا، o1-preview در علامت خطا و تشخیص جمله فراخوانی بالاتری داشت، اما پزشکان در دقت عملکرد بهتری داشتند.
مسیرهای تحقیقاتی آینده
محققان اظهار داشتند که مسیر تحقیقاتی بعدی شامل معرفی نمونههای بیشتر و بهینهسازی آنها در دستورها برای بهبود عملکرد مدلها در تشخیص و اصلاح خطاهای پزشکی است.