Published on

تسريب معلمات نموذج OpenAI: ورقة مايكروسوفت تكشف عن حجم GPT4o

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

تسريب معلمات نموذج OpenAI: ورقة مايكروسوفت تكشف عن حجم GPT4o

في عالم التكنولوجيا، لطالما كانت مسألة حجم معلمات نماذج اللغة الكبيرة (LLM) سرًا يخضع لحراسة مشددة. ومع ذلك، كشفت مؤخرًا ورقة بحثية طبية نشرها فريق مشترك من مايكروسوفت وجامعة واشنطن، عن معلومات غير متوقعة حول معلمات العديد من نماذج OpenAI، مما أثار اهتمامًا واسع النطاق.

الكشف عن المعلمات

تضمنت المعلومات الرئيسية التي كشفت عنها الورقة ما يلي:

  • GPT-4: حوالي 1.76 تريليون معلمة
  • GPT-4o: حوالي 200 مليار معلمة
  • GPT-4o mini: حوالي 8 مليارات معلمة
  • o1-preview: حوالي 300 مليار معلمة
  • o1-mini: حوالي 100 مليار معلمة
  • Claude 3.5 Sonnet: حوالي 175 مليار معلمة

من الجدير بالذكر أن الباحثين صرحوا بأن هذه المعلمات هي مجرد تقديرات.

معلمات سلسلة GPT-4o تثير الجدل

الأمر المثير للدهشة هو أن حجم معلمات سلسلة GPT-4o كان أقل بكثير من المتوقع، خاصةً أن الإصدار المصغر (mini) يمتلك 8 مليارات معلمة فقط. وقد تكهن بعض مستخدمي الإنترنت بأن GPT-4o mini قد يكون يعتمد على بنية نموذج الخبراء المختلطة (MoE)، حيث تبلغ المعلمات النشطة الفعلية 8 مليارات، ولكن إجمالي معلمات النموذج قد يصل إلى 400 مليار. تسمح هذه البنية للنماذج الصغيرة بتعلم المزيد من المعرفة، مع الحفاظ على سرعة التشغيل.

مقارنة معلمات Claude 3.5 Sonnet

بالإضافة إلى ذلك، أشارت بعض التعليقات إلى أن حجم معلمات Claude 3.5 Sonnet يماثل GPT-3 davinci، مما أثار تساؤلات حول العلاقة بين أداء النماذج المختلفة وحجمها.

معيار MEDEC: معيار جديد لاكتشاف الأخطاء الطبية

الورقة البحثية التي كشفت عن هذه المعلمات، هي في الأساس حول معيار تقييم يسمى MEDEC1، يهدف إلى تقييم أداء نماذج اللغة الكبيرة في مهام اكتشاف الأخطاء الطبية وتصحيحها. يركز هذا المعيار على الأخطاء الموجودة في الملاحظات السريرية، ويغطي خمسة جوانب: التشخيص، والإدارة، والعلاج، والعلاج الدوائي، والعوامل المسببة للأمراض.

مصادر البيانات وخصائصها

يحتوي مجموعة بيانات MEDEC على 488 ملاحظة سريرية من ثلاثة أنظمة مستشفيات أمريكية، بإجمالي 3848 نصًا سريريًا. لم تتعرض هذه البيانات مسبقًا لأي نموذج لغة كبير، مما يضمن أصالة وموثوقية التقييم. يتم استخدام مجموعة البيانات حاليًا في مهمة MEDIQA-CORR المشتركة لتقييم أداء 17 نظامًا مشاركًا.

الاختبارات والنتائج

استخدم فريق البحث مجموعة بيانات MEDEC لاختبار مجموعة متنوعة من النماذج المتقدمة، بما في ذلك o1-preview و GPT-4 و Claude 3.5 Sonnet و Gemini 2.0 Flash. كما قاموا بدعوة طبيبين متخصصين للمشاركة في نفس مهمة اكتشاف الأخطاء، لإجراء مقارنة بين أداء الإنسان والآلة.

أظهرت النتائج أن نماذج اللغة الكبيرة أبدت أداءً جيدًا في اكتشاف الأخطاء الطبية وتصحيحها، ولكنها لا تزال أقل من مستوى الأطباء البشريين. وهذا يشير إلى أن MEDEC هو معيار تقييم صعب.

المحتوى الأساسي للورقة: تطبيقات وتحديات نماذج LLM في المجال الطبي

أشارت الورقة إلى أن الدراسات الاستقصائية في المؤسسات الطبية الأمريكية تظهر أن واحدًا من كل خمسة مرضى يقرأون الملاحظات السريرية يبلغ عن وجود أخطاء. ويعتبر 40% من هذه الأخطاء خطيرة، والأكثر شيوعًا هي الأخطاء المتعلقة بالتشخيص.

تطبيقات ومخاطر نماذج LLM في المستندات الطبية

مع تزايد عدد مهام المستندات الطبية التي يتم تنفيذها بواسطة نماذج اللغة الكبيرة، مثل إنشاء الملاحظات السريرية، يصبح من الضروري التأكد من دقة وسلامة المعلومات التي تنتجها هذه النماذج. قد تنتج نماذج LLM هلوسات، أو تخرج بمعلومات خاطئة أو وهمية، مما قد يؤثر بشكل خطير على القرارات السريرية.

أهمية معيار MEDEC

لحل هذه المشكلات وضمان سلامة نماذج LLM في إنشاء المحتوى الطبي، لا بد من وجود طرق تحقق صارمة. يهدف تقديم معيار MEDEC إلى تقييم قدرة النماذج على اكتشاف وتصحيح الأخطاء الطبية في النصوص السريرية.

بناء مجموعة بيانات MEDEC

تحتوي مجموعة بيانات MEDEC على 3848 نصًا سريريًا من مختلف المجالات الطبية، تم وضع علامات عليها من قبل 8 أطباء. تغطي مجموعة البيانات خمسة أنواع من الأخطاء:

  • التشخيص (Diagnosis): التشخيص المقدم غير دقيق.
  • الإدارة (Management): الخطوات التالية للإدارة المقدمة غير دقيقة.
  • العلاج الدوائي (Pharmacotherapy): العلاج الدوائي الموصى به غير دقيق.
  • العلاج (Treatment): خطة العلاج الموصى بها غير دقيقة.
  • العامل المسبب (Causal Organism): الكائن الحي المسبب للمرض أو العامل الممرض المشار إليه غير دقيق.

تم اختيار هذه الأنواع من الأخطاء بناءً على أنواع الأسئلة الأكثر شيوعًا في اختبارات المجالس الطبية.

طرق إنشاء البيانات

تم بناء مجموعة البيانات باستخدام طريقتين:

  1. الطريقة #1 (MS): باستخدام أسئلة اختبارات المجالس الطبية من مجموعة MedQA، قام أطباء بوضع إجابات خاطئة في نصوص السيناريو.
  2. الطريقة #2 (UW): باستخدام قاعدة بيانات الملاحظات السريرية الحقيقية من ثلاثة مستشفيات تابعة لجامعة واشنطن، قام فريق من الطلاب الطبيين بإدخال أخطاء يدويًا في السجلات.

خضعت كلتا الطريقتين لرقابة صارمة على الجودة، لضمان دقة البيانات وموثوقيتها.

طرق اكتشاف الأخطاء الطبية وتصحيحها

لتقييم أداء النماذج في مهام اكتشاف الأخطاء الطبية وتصحيحها، قسم الباحثون العملية إلى ثلاث مهام فرعية:

  • المهمة الفرعية A: التنبؤ بعلامة الخطأ (0: لا يوجد خطأ؛ 1: يوجد خطأ).
  • المهمة الفرعية B: استخراج الجملة التي تحتوي على الخطأ.
  • المهمة الفرعية C: إنشاء محتوى مصحح للجملة التي تحتوي على الخطأ.

قام فريق البحث ببناء حلول تعتمد على نماذج LLM، واستخدموا نوعين مختلفين من المطالبات لإنتاج المخرجات المطلوبة.

التجارب والنتائج

نماذج اللغة

أجرى الباحثون تجارب على مجموعة متنوعة من نماذج اللغة، بما في ذلك Phi-3-7B و Claude 3.5 Sonnet و Gemini 2.0 Flash و ChatGPT و GPT-4 و GPT-4o و o1-mini و o1-preview.

تحليل نتائج التجارب

أظهرت نتائج التجارب أن Claude 3.5 Sonnet أظهر أداءً جيدًا في الكشف عن علامات الخطأ واكتشاف الجمل التي تحتوي على أخطاء. وكان o1-preview الأفضل في تصحيح الأخطاء. ومع ذلك، لا تزال جميع النماذج أقل من مستوى الأطباء البشريين في اكتشاف الأخطاء الطبية وتصحيحها.

كما أظهرت النتائج أن النماذج تواجه مشاكل في الدقة، وفي كثير من الحالات تبالغ في التنبؤ بوجود الأخطاء (أي أنها تنتج هلوسات). بالإضافة إلى ذلك، كان هناك اختلاف في الترتيب بين أداء التصنيف وأداء إنشاء التصحيح.

تحليل أنواع الأخطاء

فيما يتعلق بالكشف عن أنواع الأخطاء المختلفة وتصحيحها، كان o1-preview لديه معدل استدعاء أعلى في الكشف عن علامات الخطأ والجمل، ولكن الأطباء أظهروا أداءً أفضل في الدقة.

اتجاهات البحث المستقبلية

أشار الباحثون إلى أن الخطوة التالية في البحث ستتضمن تقديم المزيد من الأمثلة في المطالبات وتحسينها، لزيادة تحسين أداء النماذج في اكتشاف الأخطاء الطبية وتصحيحها.