- Published on
مطالعه استنفورد و برکلی: کاهش عملکرد ChatGPT در طول زمان
نوسانات عملکرد مدل های GPT-3.5 و GPT-4
مطالعه ای که توسط محققان دانشگاه استنفورد و دانشگاه کالیفرنیا، برکلی، در مجله Harvard Data Science Review منتشر شده است، نشان می دهد که عملکرد مدل های GPT-3.5 و GPT-4 در طی یک دوره سه ماهه نوسانات قابل توجهی داشته است. این مطالعه هفت وظیفه مختلف از جمله حل مسائل ریاضی، تولید کد، پاسخگویی به سوالات پیچیده، امتحان مجوز پزشکی ایالات متحده و استدلال بصری را مورد بررسی قرار داده است.
کاهش دقت در حل مسائل ریاضی
یکی از یافته های قابل توجه این مطالعه کاهش چشمگیر دقت GPT-4 در شناسایی اعداد اول در مقابل اعداد مرکب بوده است. دقت این مدل از 84٪ در ماه مارس به 51٪ در ماه ژوئن کاهش یافته است. این کاهش تا حدی به تضعیف توانایی مدل در پیروی از دستورالعمل های "زنجیره تفکر" نسبت داده شده است. جالب اینجاست که GPT-3.5 در همین دوره در این وظیفه خاص پیشرفت داشته است.
تغییرات قابل توجه دیگر
- کاهش تمایل GPT-4 به پاسخگویی به سوالات حساس و نظرسنجی های عقیدتی در ماه ژوئن.
- بهبود توانایی GPT-4 در حل مسائل استدلالی چند مرحله ای، در حالی که GPT-3.5 در چنین وظایفی کاهش نشان داده است.
- افزایش خطاهای قالب بندی در تولید کد برای هر دو مدل.
- کاهش توانایی GPT-4 در پیروی از دستورالعمل های کاربر.
روش ارزیابی
محققان GPT-3.5 و GPT-4 را بر اساس اصول تنوع و بازنمایی ارزیابی کردند. آزمایش ها در هفت حوزه اصلی انجام شد:
- مسائل ریاضی
- موضوعات حساس/خطرناک
- نظرسنجی های عقیدتی
- سوالات چند مرحله ای با دانش فشرده
- تولید کد
- امتحان مجوز پزشکی ایالات متحده
- استدلال بصری
معیار جدید برای ارزیابی پیروی از دستورالعمل ها
برای درک بهتر تغییرات رفتاری، تیم یک معیار جدید متمرکز بر پیروی از دستورالعمل های مستقل از وظیفه ایجاد کرد. این معیار شامل چهار نوع دستورالعمل متداول بود: استخراج پاسخ، توقف عذرخواهی، اجتناب از کلمات خاص و فیلتر کردن محتوا.
کاهش پیروی از دستورالعمل ها
این مجموعه از آزمایش ها برای ارزیابی توانایی مدل ها در پیروی از دستورالعمل ها به طور مستقل از مهارت ها یا دانش خاص طراحی شده بود. در ماه مارس، GPT-4 قادر به پیروی از اکثر دستورالعمل های فردی بود، اما تا ماه ژوئن شروع به نادیده گرفتن آنها کرد. به عنوان مثال، نرخ انطباق برای دستورالعمل های استخراج پاسخ از 99.5٪ به تقریباً صفر کاهش یافت. وفاداری دستورالعمل فیلتر کردن محتوا نیز از 74.0٪ به 19.0٪ کاهش یافت.
معیارهای عملکرد
برای ثبت دقیق عملکرد مدل ها، تیم معیارهای عملکرد اصلی و تکمیلی را برای هر وظیفه تعیین کرد. به عنوان مثال:
- دقت به عنوان معیار اصلی برای مسائل ریاضی و USMLE استفاده شد.
- نسبت کد خروجی قابل اجرا معیار اصلی برای تولید کد بود.
عملکرد ChatGPT در چهار نوع دستورالعمل
استخراج پاسخ
این دستورالعمل از مدل می خواهد که به طور دقیق پاسخ را در یک متن یا سؤال مشخص کند. GPT-4 در ماه مارس انطباق بالایی با این نوع دستورالعمل نشان داد، با تقریباً 99.5٪ از پرس و جوها پاسخ های صحیح قالب بندی شده را دریافت کردند. با این حال، تا ماه ژوئن، این میزان به شدت کاهش یافت، که نشان دهنده کاهش توانایی مدل در مدیریت قالب های دستورالعمل واضح است.
توقف عذرخواهی
این دستورالعمل توانایی مدل را در اجتناب از استفاده از عذرخواهی یا شناسایی خود به عنوان یک هوش مصنوعی هنگام درخواست صریح آزمایش می کند. در ماه مارس، GPT-4 به طور کلی از این دستورالعمل پیروی می کرد، اما تا ماه ژوئن، اغلب آن را نقض می کرد، حتی زمانی که به طور خاص دستور داده شده بود.
اجتناب از کلمات خاص
این دستورالعمل انعطاف پذیری و توجه مدل به جزئیات را بررسی می کند، به ویژه در رعایت محدودیت های خاص. کاهش از مارس تا ژوئن نشان دهنده کاهش توانایی GPT-4 در مدیریت دستورالعمل های پیچیده است.
فیلتر کردن محتوا
این دستورالعمل از مدل می خواهد که موضوعات خاص یا اطلاعات حساس را حذف کند. در ماه مارس، GPT-4 تا حد زیادی به این الزامات فیلتر کردن پایبند بود، اما تا ماه ژوئن، توانایی فیلتر کردن آن به طور قابل توجهی کاهش یافت، به طوری که تنها حدود 19٪ از مسائل حساس به درستی مدیریت شدند.
پیامدهای تحقیق
محققان خاطرنشان کردند که از آنجایی که GPT-3.5 و GPT-4 مدل های منبع بسته هستند، OpenAI داده ها و فرآیندهای آموزشی خود را فاش نمی کند. این عدم شفافیت به این معنی است که کاربران اغلب از تغییراتی که با هر بروزرسانی عمده رخ می دهد، آگاه نیستند. این مطالعه می تواند به توسعه دهندگان و کاربران کمک کند تا عملکرد و پویایی های رفتاری ChatGPT را درک کنند، که برای اطمینان از ایمنی و اصالت محتوای مدل بسیار مهم است. این مطالعه چالش های حفظ ثبات و قابلیت اطمینان این مدل ها را به ویژه در محیط های به سرعت در حال تحول برجسته می کند.