Published on

افشای پارامترهای مدل OpenAI: مقاله مایکروسافت اندازه GPT4o را فاش می کند

نویسندگان
  • avatar
    نام
    Ajax
    Twitter

پارامترهای مدل های OpenAI فاش شد

در دنیای فناوری، اندازه پارامترهای مدل‌های زبان بزرگ (LLM) همواره یک راز بوده است. با این حال، اخیراً یک مقاله پزشکی که توسط تیمی از مایکروسافت و دانشگاه واشنگتن منتشر شده است، به طور ناخواسته اطلاعات پارامترهای چندین مدل OpenAI را فاش کرده و توجه گسترده‌ای را به خود جلب کرده است.

پارامترهای فاش شده

اطلاعات کلیدی که در این مقاله فاش شده است عبارتند از:

  • GPT-4: حدود 1.76 تریلیون پارامتر
  • GPT-4o: حدود 200 میلیارد پارامتر
  • GPT-4o mini: حدود 80 میلیارد پارامتر
  • o1-preview: حدود 300 میلیارد پارامتر
  • o1-mini: حدود 100 میلیارد پارامتر
  • Claude 3.5 Sonnet: حدود 175 میلیارد پارامتر

شایان ذکر است که محققان اعلام کرده‌اند که این پارامترها تخمینی هستند.

بحث و جدل پیرامون پارامترهای سری GPT-4o

نکته شگفت‌انگیز این است که حجم پارامترهای سری GPT-4o بسیار کمتر از حد انتظار است، به ویژه نسخه مینی که تنها 80 میلیارد پارامتر دارد. برخی از کاربران اینترنتی حدس می زنند که GPT-4o mini ممکن است از معماری مدل ترکیبی متخصصان (MoE) استفاده کند، به طوری که پارامترهای فعال شده واقعی 80 میلیارد هستند، اما پارامترهای کلی مدل ممکن است به 400 میلیارد برسد. این معماری به مدل‌های کوچک‌تر امکان می‌دهد دانش بیشتری کسب کنند و در عین حال سرعت اجرا را حفظ کنند.

مقایسه پارامترهای Claude 3.5 Sonnet

علاوه بر این، برخی از مفسران اشاره کرده‌اند که حجم پارامترهای Claude 3.5 Sonnet با GPT-3 davinci قابل مقایسه است، که باعث شده است مردم بیشتر به رابطه بین عملکرد مدل‌های مختلف و اندازه آن‌ها فکر کنند.

معیار MEDEC: استاندارد جدیدی برای تشخیص خطاهای پزشکی

این مقاله که پارامترها در آن فاش شده است، در واقع در مورد یک معیار ارزیابی به نام MEDEC1 است که هدف آن ارزیابی عملکرد مدل‌های زبان بزرگ در وظایف تشخیص و اصلاح خطاهای پزشکی است. این معیار بر خطاهای موجود در یادداشت‌های بالینی تمرکز دارد و پنج حوزه را پوشش می‌دهد: تشخیص، مدیریت، درمان، دارودرمانی و عوامل بیماری‌زا.

منبع و ویژگی‌های داده‌ها

مجموعه داده MEDEC شامل 488 یادداشت بالینی از سه سیستم بیمارستانی در ایالات متحده است که در مجموع 3848 متن بالینی را شامل می‌شود. این داده‌ها قبلاً توسط هیچ مدل زبان بزرگی استفاده نشده بود و این امر اصالت و قابلیت اطمینان ارزیابی را تضمین می‌کند. در حال حاضر، این مجموعه داده در MEDIQA-CORR برای ارزیابی عملکرد 17 سیستم شرکت کننده استفاده می‌شود.

آزمایش و نتایج

تیم تحقیقاتی از مجموعه داده MEDEC برای آزمایش مدل‌های پیشرفته مختلف، از جمله o1-preview، GPT-4، Claude 3.5 Sonnet و Gemini 2.0 Flash استفاده کردند. در عین حال، از دو پزشک متخصص نیز دعوت شد تا در همان کار تشخیص خطا شرکت کنند تا مقایسه انسان و ماشین انجام شود.

نتایج نشان داد که اگرچه مدل‌های زبان بزرگ در تشخیص و اصلاح خطاهای پزشکی عملکرد خوبی دارند، اما هنوز در مقایسه با پزشکان انسانی فاصله دارند. این نشان می‌دهد که MEDEC یک معیار ارزیابی چالش برانگیز است.

محتوای اصلی مقاله: کاربردها و چالش‌های LLM در حوزه پزشکی

این مقاله خاطرنشان می‌کند که بررسی‌های انجام شده در مراکز پزشکی ایالات متحده نشان می‌دهد که از هر پنج بیماری که یادداشت‌های بالینی را می‌خوانند، یک نفر خطایی را گزارش می‌کند. از این خطاها، 40 درصد نسبتاً جدی تلقی می‌شوند و شایع‌ترین آن‌ها خطاهای مربوط به تشخیص است.

کاربردها و خطرات LLM در اسناد پزشکی

با افزایش تعداد وظایف مستندسازی پزشکی (مانند تولید یادداشت‌های بالینی) که توسط مدل‌های زبان بزرگ انجام می‌شود، اطمینان از دقت و ایمنی اطلاعات خروجی LLM بسیار مهم است. LLM ها ممکن است توهم ایجاد کنند و محتوای نادرست یا ساختگی را خروجی دهند که می تواند تأثیر جدی بر تصمیم گیری های بالینی داشته باشد.

اهمیت معیار MEDEC

به منظور حل این مشکلات و اطمینان از ایمنی LLM در تولید محتوای پزشکی، روش های اعتبارسنجی دقیق ضروری است. معرفی معیار MEDEC با هدف ارزیابی توانایی مدل‌ها در تشخیص و اصلاح خطاهای پزشکی در متون بالینی است.

ساخت مجموعه داده MEDEC

مجموعه داده MEDEC شامل 3848 متن بالینی از حوزه‌های مختلف پزشکی است که توسط 8 علامت گذار پزشکی علامت گذاری شده است. این مجموعه داده پنج نوع خطا را پوشش می دهد:

  • تشخیص (Diagnosis): تشخیص ارائه شده نادرست است.
  • مدیریت (Management): اقدامات بعدی ارائه شده برای مدیریت نادرست است.
  • دارودرمانی (Pharmacotherapy): دارودرمانی توصیه شده نادرست است.
  • درمان (Treatment): طرح درمان توصیه شده نادرست است.
  • عامل بیماری‌زا (Causal Organism): ارگانیسم یا عامل بیماری‌زای مشخص شده نادرست است.

این انواع خطاها بر اساس رایج ترین انواع سوالات در امتحانات هیئت پزشکی انتخاب شده اند.

روش‌های ایجاد داده‌ها

مجموعه داده با استفاده از دو روش ساخته شده است:

  1. روش شماره 1 (MS): با استفاده از سوالات امتحان هیئت پزشکی از مجموعه MedQA، علامت گذاران با سابقه پزشکی پاسخ های نادرست را در متون سناریو وارد می کنند.
  2. روش شماره 2 (UW): با استفاده از پایگاه داده یادداشت های بالینی واقعی از سه سیستم بیمارستانی دانشگاه واشنگتن، تیم دانشجویان پزشکی به طور دستی خطاها را در سوابق وارد می کنند.

هر دو روش تحت کنترل کیفیت دقیق قرار گرفتند تا از دقت و قابلیت اطمینان داده‌ها اطمینان حاصل شود.

روش‌های تشخیص و اصلاح خطاهای پزشکی

به منظور ارزیابی عملکرد مدل‌ها در وظایف تشخیص و اصلاح خطاهای پزشکی، محققان این فرآیند را به سه زیروظیفه تقسیم کردند:

  • زیروظیفه A: پیش بینی علامت خطا (0: بدون خطا؛ 1: وجود خطا).
  • زیروظیفه B: استخراج جمله حاوی خطا.
  • زیروظیفه C: تولید محتوای اصلاح شده برای جمله حاوی خطا.

تیم تحقیقاتی بر اساس LLM راه حلی ساختند و از دو دستور مختلف برای تولید خروجی مورد نیاز استفاده کردند.

آزمایش و نتایج

مدل‌های زبان

محققان بر روی مدل‌های زبان مختلف از جمله Phi-3-7B، Claude 3.5 Sonnet، Gemini 2.0 Flash، ChatGPT، GPT-4، GPT-4o، o1-mini و o1-preview آزمایشاتی انجام دادند.

تجزیه و تحلیل نتایج آزمایش

نتایج آزمایش نشان داد که Claude 3.5 Sonnet در تشخیص علامت خطا و تشخیص جمله خطا عملکرد خوبی دارد. o1-preview در اصلاح خطاها بهترین عملکرد را داشت. با این حال، همه مدل ها در تشخیص و اصلاح خطاهای پزشکی هنوز از پزشکان انسانی عقب تر هستند.

نتایج همچنین نشان داد که مدل‌ها در دقت مشکل دارند و در بسیاری از موارد وجود خطا را بیش از حد پیش‌بینی می‌کنند (یعنی توهم ایجاد می‌کنند). علاوه بر این، بین عملکرد طبقه بندی و عملکرد تولید اصلاح خطا اختلاف رتبه وجود دارد.

تجزیه و تحلیل انواع خطا

در زمینه تشخیص و اصلاح انواع مختلف خطا، o1-preview در علامت خطا و تشخیص جمله فراخوانی بالاتری داشت، اما پزشکان در دقت عملکرد بهتری داشتند.

مسیرهای تحقیقاتی آینده

محققان اظهار داشتند که مسیر تحقیقاتی بعدی شامل معرفی نمونه‌های بیشتر و بهینه‌سازی آنها در دستورها برای بهبود عملکرد مدل‌ها در تشخیص و اصلاح خطاهای پزشکی است.