Published on

Kajian Prestasi ChatGPT oleh Stanford dan UC Berkeley Mengalami Penurunan

Pengarang
  • avatar
    Nama
    Ajax
    Twitter

Penurunan Prestasi ChatGPT: Kajian Stanford dan UC Berkeley

Kertas kerja baru-baru ini bertajuk 'ChatGPT Behavior Over Time', yang diterbitkan dalam Harvard Data Science Review oleh penyelidik dari Universiti Stanford dan Universiti California, Berkeley, telah mendedahkan perubahan ketara dalam prestasi dan tingkah laku GPT-3.5 dan GPT-4 dalam tempoh tiga bulan. Kajian ini memeriksa model-model ini merentasi tujuh tugas termasuk penyelesaian masalah matematik, penjanaan kod, menjawab soalan intensif pengetahuan berbilang langkah, Peperiksaan Perlesenan Perubatan AS, dan menjawab soalan intensif pengetahuan berbilang langkah.

Perubahan Prestasi

Penyelidikan itu menunjukkan variasi yang ketara dalam prestasi kedua-dua GPT-3.5 dan GPT-4 dalam tempoh tiga bulan. Khususnya, ketepatan GPT-4 dalam mengenal pasti nombor perdana berbanding nombor komposit menurun secara mendadak dari 84% pada bulan Mac kepada 51% pada bulan Jun. Penurunan ini sebahagiannya disebabkan oleh kelemahan dalam keupayaannya untuk mengikuti gesaan 'rantaian pemikiran'. Menariknya, GPT-3.5 menunjukkan peningkatan dalam tugas khusus ini dalam tempoh yang sama.

Perubahan ketara lain termasuk:

  • Penurunan dalam kesediaan GPT-4 untuk menjawab soalan sensitif dan tinjauan pendapat pada bulan Jun.
  • Peningkatan dalam keupayaan GPT-4 untuk menyelesaikan masalah penaakulan berbilang langkah, manakala GPT-3.5 menunjukkan penurunan dalam tugas sedemikian.
  • Peningkatan dalam ralat pemformatan dalam penjanaan kod untuk kedua-dua model.
  • Penurunan dalam keupayaan GPT-4 untuk mengikuti arahan pengguna.

Metodologi Penilaian

Para penyelidik menilai GPT-3.5 dan GPT-4 berdasarkan prinsip kepelbagaian dan perwakilan. Ujian telah dijalankan merentasi tujuh domain utama:

  • Masalah matematik
  • Isu sensitif/berbahaya
  • Tinjauan pendapat
  • Soalan intensif pengetahuan berbilang langkah
  • Penjanaan kod
  • Peperiksaan Perlesenan Perubatan AS
  • Penaakulan visual

Untuk memahami perubahan tingkah laku dengan lebih baik, pasukan itu membangunkan penanda aras baharu yang memfokuskan pada pengikut arahan bebas tugas. Penanda aras ini merangkumi empat jenis arahan biasa:

  • Pengekstrakan jawapan
  • Berhenti meminta maaf
  • Elakkan perkataan tertentu
  • Penapisan kandungan

Mengikut Arahan

Siri ujian ini direka untuk menilai keupayaan model untuk mengikuti arahan secara bebas daripada kemahiran atau pengetahuan khusus. Pada bulan Mac, GPT-4 dapat mengikuti kebanyakan arahan individu dengan baik, tetapi pada bulan Jun ia mula mengabaikannya. Sebagai contoh, kadar pematuhan untuk arahan pengekstrakan jawapan menurun daripada 99.5% kepada hampir sifar. Kesetiaan arahan penapisan kandungan juga menurun daripada 74.0% kepada 19.0%.

Metrik Prestasi

Untuk menangkap prestasi model dengan tepat, pasukan itu menetapkan metrik prestasi utama dan tambahan untuk setiap tugas. Sebagai contoh:

  • Ketepatan digunakan sebagai metrik utama untuk masalah matematik dan USMLE.
  • Perkadaran kod output yang boleh dilaksanakan ialah metrik utama untuk penjanaan kod.

Prestasi ChatGPT Dalam Empat Jenis Arahan

Pengekstrakan Jawapan

Arahan ini memerlukan model untuk mencari dan mengenal pasti jawapan dengan tepat dalam teks atau soalan yang diberikan. GPT-4 menunjukkan pematuhan yang tinggi dengan jenis arahan ini pada bulan Mac, dengan hampir 99.5% pertanyaan menerima jawapan yang diformat dengan betul. Walau bagaimanapun, menjelang Jun, kadar ini menjunam, menunjukkan penurunan dalam keupayaan model untuk mengendalikan format arahan yang jelas.

Berhenti Meminta Maaf

Arahan ini menguji keupayaan model untuk mengelak daripada menggunakan permintaan maaf atau mengenal pasti diri sebagai AI apabila secara eksplisit diminta untuk tidak berbuat demikian. Pada bulan Mac, GPT-4 secara amnya mengikuti arahan ini, tetapi menjelang Jun, ia sering melanggarnya, walaupun diarahkan secara khusus.

Elakkan Perkataan Tertentu

Arahan ini memeriksa fleksibiliti dan perhatian model terhadap perincian, terutamanya dalam mematuhi kekangan tertentu. Penurunan dari Mac hingga Jun menunjukkan pengurangan dalam keupayaan GPT-4 untuk mengendalikan arahan yang kompleks.

Penapisan Kandungan

Arahan ini memerlukan model untuk mengecualikan topik tertentu atau maklumat sensitif. Pada bulan Mac, GPT-4 sebahagian besarnya mematuhi keperluan penapisan ini, tetapi menjelang Jun, keupayaan penapisannya menurun dengan ketara, dengan hanya kira-kira 19% isu sensitif yang dikendalikan dengan betul.

Implikasi Kajian

Para penyelidik menyatakan bahawa kerana GPT-3.5 dan GPT-4 adalah model sumber tertutup, OpenAI tidak mendedahkan data dan proses latihannya. Kekurangan ketelusan ini bermakna pengguna sering tidak menyedari perubahan yang berlaku dengan setiap kemas kini utama. Kajian ini boleh membantu pembangun dan pengguna memahami prestasi dan dinamik tingkah laku ChatGPT, yang penting untuk memastikan keselamatan dan ketulenan kandungan model. Kajian ini menyerlahkan cabaran mengekalkan konsistensi dan kebolehpercayaan model ini, terutamanya dalam persekitaran yang berkembang pesat.