Published on

Studi Stanford dan UC Berkeley Ungkap Penurunan Performa ChatGPT

Penulis
  • avatar
    Nama
    Ajax
    Twitter

Studi Performa ChatGPT oleh Stanford dan UC Berkeley

Sebuah makalah baru berjudul 'Perilaku ChatGPT dari Waktu ke Waktu' yang diterbitkan di Harvard Data Science Review oleh para peneliti dari Stanford University dan University of California, Berkeley, telah mengungkapkan fluktuasi signifikan dalam kinerja dan perilaku GPT-3.5 dan GPT-4 selama periode tiga bulan. Studi ini menguji model-model ini dalam tujuh tugas, termasuk pemecahan masalah matematika, pembuatan kode, menjawab pertanyaan intensif pengetahuan multi-hop, Ujian Lisensi Medis AS, dan menjawab pertanyaan intensif pengetahuan multi-hop.

Fluktuasi Kinerja

Penelitian menunjukkan variasi yang mencolok dalam kinerja GPT-3.5 dan GPT-4 dalam waktu tiga bulan. Secara khusus, akurasi GPT-4 dalam mengidentifikasi bilangan prima vs. komposit turun drastis dari 84% pada bulan Maret menjadi 51% pada bulan Juni. Penurunan ini sebagian disebabkan oleh melemahnya kemampuannya untuk mengikuti perintah 'rantai pemikiran'. Menariknya, GPT-3.5 menunjukkan peningkatan dalam tugas khusus ini selama periode yang sama.

Perubahan penting lainnya termasuk:

  • Penurunan kesediaan GPT-4 untuk menjawab pertanyaan sensitif dan survei opini pada bulan Juni.
  • Peningkatan kemampuan GPT-4 dalam memecahkan masalah penalaran multi-langkah, sementara GPT-3.5 menunjukkan penurunan dalam tugas tersebut.
  • Peningkatan kesalahan format dalam pembuatan kode untuk kedua model.
  • Penurunan kemampuan GPT-4 untuk mengikuti instruksi pengguna.

Metodologi Evaluasi

Para peneliti mengevaluasi GPT-3.5 dan GPT-4 berdasarkan prinsip keragaman dan representasi. Pengujian dilakukan di tujuh domain utama:

  • Masalah matematika
  • Isu sensitif/berbahaya
  • Survei opini
  • Pertanyaan intensif pengetahuan multi-hop
  • Pembuatan kode
  • Ujian Lisensi Medis AS
  • Penalaran visual

Untuk lebih memahami perubahan perilaku, tim mengembangkan tolok ukur baru yang berfokus pada instruksi yang tidak bergantung pada tugas. Tolok ukur ini mencakup empat jenis instruksi umum: ekstraksi jawaban, berhenti meminta maaf, menghindari kata-kata tertentu, dan penyaringan konten.

Kepatuhan Instruksi

Serangkaian pengujian ini dirancang untuk mengevaluasi kemampuan model untuk mengikuti instruksi terlepas dari keterampilan atau pengetahuan tertentu. Pada bulan Maret, GPT-4 mampu mengikuti sebagian besar instruksi individu dengan baik, tetapi pada bulan Juni mulai mengabaikannya. Misalnya, tingkat kepatuhan untuk instruksi ekstraksi jawaban turun dari 99,5% menjadi hampir nol. Kesetiaan instruksi penyaringan konten juga menurun dari 74,0% menjadi 19,0%.

Metrik Kinerja

Untuk menangkap kinerja model secara akurat, tim menetapkan metrik kinerja utama dan tambahan untuk setiap tugas. Misalnya:

  • Akurasi digunakan sebagai metrik utama untuk soal matematika dan USMLE.
  • Proporsi kode keluaran yang dapat dieksekusi adalah metrik utama untuk pembuatan kode.

Kinerja ChatGPT dalam Empat Jenis Instruksi

Ekstraksi Jawaban

Instruksi ini mengharuskan model untuk secara akurat menemukan dan mengidentifikasi jawaban secara eksplisit dalam teks atau pertanyaan yang diberikan. GPT-4 menunjukkan kepatuhan yang tinggi terhadap jenis instruksi ini pada bulan Maret, dengan hampir 99,5% pertanyaan menerima jawaban yang diformat dengan benar. Namun, pada bulan Juni, tingkat ini merosot tajam, yang menunjukkan penurunan kemampuan model untuk menangani format instruksi yang jelas.

Berhenti Meminta Maaf

Arahan ini menguji kemampuan model untuk menghindari penggunaan permintaan maaf atau mengidentifikasi diri sebagai AI ketika secara eksplisit diminta untuk tidak melakukannya. Pada bulan Maret, GPT-4 umumnya mengikuti instruksi ini, tetapi pada bulan Juni, ia sering melanggarnya, bahkan ketika secara khusus diinstruksikan.

Hindari Kata-kata Tertentu

Instruksi ini memeriksa fleksibilitas dan perhatian model terhadap detail, khususnya dalam mematuhi batasan tertentu. Penurunan dari Maret hingga Juni menunjukkan pengurangan kemampuan GPT-4 untuk menangani instruksi yang kompleks.

Penyaringan Konten

Instruksi ini mengharuskan model untuk mengecualikan topik atau informasi sensitif tertentu. Pada bulan Maret, GPT-4 sebagian besar mematuhi persyaratan penyaringan ini, tetapi pada bulan Juni, kemampuan penyaringannya menurun secara signifikan, dengan hanya sekitar 19% isu sensitif yang ditangani dengan benar.

Implikasi Penelitian

Para peneliti mencatat bahwa karena GPT-3.5 dan GPT-4 adalah model sumber tertutup, OpenAI tidak mengungkapkan data dan proses pelatihannya. Kurangnya transparansi ini berarti bahwa pengguna seringkali tidak menyadari perubahan yang terjadi pada setiap pembaruan besar. Studi ini dapat membantu pengembang dan pengguna memahami kinerja dan dinamika perilaku ChatGPT, yang penting untuk memastikan keamanan dan keaslian konten model. Studi ini menyoroti tantangan dalam mempertahankan konsistensi dan keandalan model-model ini, terutama dalam lingkungan yang berkembang pesat.