- Published on
دراسة ستانفورد تكشف تراجع أداء ChatGPT
تقلبات الأداء في نماذج ChatGPT
أظهرت الدراسة التي نشرت في مجلة 'Harvard Data Science Review' بعنوان 'سلوك ChatGPT مع مرور الوقت' أن هناك تقلبات ملحوظة في أداء نموذجي GPT-3.5 و GPT-4 خلال فترة ثلاثة أشهر. وقد شملت الدراسة سبع مهام رئيسية بما في ذلك:
- حل المشكلات الرياضية
- توليد الأكواد البرمجية
- الإجابة على الأسئلة المعقدة التي تتطلب معرفة متعددة المراحل
- اختبار الترخيص الطبي الأمريكي
- التفكير البصري
انخفاض في دقة GPT-4: على وجه الخصوص، شهد نموذج GPT-4 انخفاضًا كبيرًا في دقته في تحديد الأعداد الأولية مقابل الأعداد المركبة، حيث انخفضت النسبة من 84% في مارس إلى 51% في يونيو. وقد عُزي هذا التراجع جزئيًا إلى ضعف قدرته على اتباع مطالبات "سلسلة الأفكار". في المقابل، أظهر GPT-3.5 تحسنًا في هذه المهمة خلال نفس الفترة.
تغيرات أخرى ملحوظة:
- انخفاض في استعداد GPT-4 للإجابة على الأسئلة الحساسة واستطلاعات الرأي في يونيو.
- تحسن في قدرة GPT-4 على حل مشكلات التفكير متعددة الخطوات، في حين أظهر GPT-3.5 تراجعًا في هذه المهام.
- زيادة في أخطاء التنسيق في توليد الأكواد البرمجية لكلا النموذجين.
- تراجع في قدرة GPT-4 على اتباع تعليمات المستخدم.
منهجية التقييم
قام الباحثون بتقييم GPT-3.5 و GPT-4 بناءً على مبادئ التنوع والتمثيل. تم إجراء الاختبارات عبر سبعة مجالات رئيسية:
- المشكلات الرياضية
- القضايا الحساسة/الخطيرة
- استطلاعات الرأي
- الأسئلة المعقدة التي تتطلب معرفة متعددة المراحل
- توليد الأكواد البرمجية
- اختبار الترخيص الطبي الأمريكي
- التفكير البصري
ولفهم التغيرات السلوكية بشكل أفضل، طور الفريق معيارًا جديدًا يركز على اتباع التعليمات المستقلة عن المهمة. تضمن هذا المعيار أربعة أنواع من التعليمات الشائعة: استخراج الإجابة، والتوقف عن الاعتذار، وتجنب كلمات محددة، وتصفية المحتوى.
اتباع التعليمات
صُممت هذه السلسلة من الاختبارات لتقييم قدرة النماذج على اتباع التعليمات بشكل مستقل عن المهارات أو المعرفة المحددة. في مارس، كان GPT-4 قادرًا على اتباع معظم التعليمات الفردية بشكل جيد، ولكن بحلول يونيو، بدأ في تجاهلها. على سبيل المثال، انخفض معدل الامتثال لتعليمات استخراج الإجابة من 99.5% إلى ما يقرب من الصفر. كما انخفضت دقة تعليمات تصفية المحتوى من 74.0% إلى 19.0%.
مقاييس الأداء
لتقييم أداء النماذج بدقة، وضع الفريق مقاييس أداء رئيسية وتكميلية لكل مهمة. على سبيل المثال:
- تم استخدام الدقة كمقياس رئيسي للمشكلات الرياضية واختبار USMLE.
- كانت نسبة الأكواد البرمجية القابلة للتنفيذ هي المقياس الرئيسي لتوليد الأكواد البرمجية.
أداء ChatGPT في أربعة أنواع من التعليمات
استخراج الإجابة
تتطلب هذه التعليمات من النموذج تحديد الإجابة بدقة وتحديدها بوضوح ضمن نص أو سؤال معين. أظهر GPT-4 امتثالًا عاليًا لهذا النوع من التعليمات في مارس، حيث تلقت ما يقرب من 99.5% من الاستعلامات إجابات منسقة بشكل صحيح. ومع ذلك، بحلول يونيو، انخفض هذا المعدل بشكل كبير، مما يشير إلى انخفاض في قدرة النموذج على التعامل مع تنسيقات التعليمات الواضحة.
التوقف عن الاعتذار
يختبر هذا التوجيه قدرة النموذج على تجنب استخدام الاعتذارات أو التعريف بنفسه كذكاء اصطناعي عند الطلب الصريح بعدم القيام بذلك. في مارس، اتبع GPT-4 هذا التوجيه بشكل عام، ولكن بحلول يونيو، انتهكه بشكل متكرر، حتى عند التوجيه بشكل خاص.
تجنب كلمات محددة
يتحقق هذا التوجيه من مرونة النموذج واهتمامه بالتفاصيل، لا سيما في الالتزام بقيود محددة. يشير الانخفاض من مارس إلى يونيو إلى انخفاض في قدرة GPT-4 على التعامل مع التعليمات المعقدة.
تصفية المحتوى
تتطلب هذه التعليمات من النموذج استبعاد مواضيع محددة أو معلومات حساسة. في مارس، التزم GPT-4 إلى حد كبير بمتطلبات التصفية هذه، ولكن بحلول يونيو، انخفضت قدرته على التصفية بشكل كبير، حيث تم التعامل مع حوالي 19% فقط من القضايا الحساسة بشكل صحيح.
الآثار المترتبة على البحث
أشار الباحثون إلى أنه نظرًا لأن GPT-3.5 و GPT-4 نماذج مغلقة المصدر، فإن OpenAI لا تكشف عن بياناتها التدريبية وعملياتها. هذا النقص في الشفافية يعني أن المستخدمين غالبًا ما يكونون غير مدركين للتغييرات التي تحدث مع كل تحديث رئيسي. يمكن أن تساعد هذه الدراسة المطورين والمستخدمين على فهم أداء وسلوكيات ChatGPT، وهو أمر بالغ الأهمية لضمان سلامة النموذج ومصداقية المحتوى. تسلط الدراسة الضوء على تحديات الحفاظ على اتساق وموثوقية هذه النماذج، لا سيما في البيئات سريعة التطور.