- Published on
Stanford ve UC Berkeley'den ChatGPT Performansında Düşüş Çalışması
ChatGPT Performansındaki Dalgalanmalar
Stanford Üniversitesi ve UC Berkeley'den araştırmacılar tarafından Harvard Data Science Review'da yayınlanan "ChatGPT'nin Zaman İçindeki Davranışı" başlıklı yeni bir çalışma, GPT-3.5 ve GPT-4'ün performansında ve davranışında üç aylık bir dönemde önemli dalgalanmalar olduğunu ortaya koydu. Çalışma, bu modelleri matematiksel problem çözme, kod üretimi, çok adımlı bilgi yoğun soru yanıtlama, ABD Tıp Lisanslama Sınavı ve görsel muhakeme dahil olmak üzere yedi farklı görevde inceledi.
Araştırma, hem GPT-3.5 hem de GPT-4'ün performansında üç ay içinde önemli değişiklikler olduğunu gösterdi. Özellikle, GPT-4'ün asal ve bileşik sayıları belirleme doğruluğu Mart ayında %84'ten Haziran ayında %51'e düştü. Bu düşüşün kısmen "düşünce zinciri" istemlerini takip etme yeteneğinin zayıflamasına bağlı olduğu belirtildi. İlginç bir şekilde, GPT-3.5 aynı dönemde bu özel görevde iyileşme gösterdi.
Diğer Önemli Değişiklikler:
- GPT-4'ün Haziran ayında hassas soruları ve görüş anketlerini yanıtlama isteğinde azalma.
- GPT-4'ün çok adımlı akıl yürütme problemlerini çözme yeteneğinde iyileşme, ancak GPT-3.5'te bu tür görevlerde düşüş.
- Her iki modelde de kod üretiminde biçimlendirme hatalarında artış.
- GPT-4'ün kullanıcı talimatlarını takip etme yeteneğinde azalma.
Değerlendirme Metodolojisi
Araştırmacılar, GPT-3.5 ve GPT-4'ü çeşitlilik ve temsil ilkelerine göre değerlendirdi. Testler yedi ana alanda yapıldı:
- Matematiksel problemler
- Hassas/tehlikeli konular
- Görüş anketleri
- Çok adımlı bilgi yoğun sorular
- Kod üretimi
- ABD Tıp Lisanslama Sınavı
- Görsel muhakeme
Davranışsal değişiklikleri daha iyi anlamak için ekip, görevden bağımsız talimat takibine odaklanan yeni bir kıstas geliştirdi. Bu kıstas, dört tür yaygın talimat içeriyordu: cevap çıkarma, özür dilemeyi bırakma, belirli kelimelerden kaçınma ve içerik filtreleme.
Talimat Takibi
Bu test serisi, modellerin belirli beceri veya bilgilerden bağımsız olarak talimatları takip etme yeteneğini değerlendirmek için tasarlanmıştır. Mart ayında GPT-4, çoğu bireysel talimatı iyi takip edebiliyordu, ancak Haziran ayına gelindiğinde bunları göz ardı etmeye başladı. Örneğin, cevap çıkarma talimatlarına uyum oranı %99.5'ten neredeyse sıfıra düştü. İçerik filtreleme talimatına uyum da %74.0'ten %19.0'a geriledi.
Performans Metrikleri
Modellerin performansını doğru bir şekilde yakalamak için ekip, her görev için birincil ve tamamlayıcı performans metrikleri belirledi. Örneğin:
- Doğruluk, matematik problemleri ve USMLE için birincil metrik olarak kullanıldı.
- Çalıştırılabilir çıktı kodunun oranı, kod üretimi için birincil metrik oldu.
ChatGPT'nin Dört Talimat Türündeki Performansı
Cevap Çıkarma
Bu talimat, modelin belirli bir metin veya soru içindeki cevabı doğru bir şekilde bulmasını ve açıkça tanımlamasını gerektirir. GPT-4, Mart ayında bu tür talimatlara yüksek uyum gösterdi ve sorguların neredeyse %99.5'i doğru biçimlendirilmiş cevaplar aldı. Ancak Haziran ayına gelindiğinde bu oran düştü ve modelin net talimat biçimlerini ele alma yeteneğinde bir düşüş olduğunu gösterdi.
Özür Dilemeyi Bırakma
Bu direktif, modelin özür dilemekten kaçınma veya açıkça talep edildiğinde kendini bir yapay zeka olarak tanımlamaktan kaçınma yeteneğini test eder. Mart ayında GPT-4 genellikle bu talimata uydu, ancak Haziran ayına gelindiğinde, özellikle talimat verilmesine rağmen sık sık ihlal etti.
Belirli Kelimelerden Kaçınma
Bu talimat, modelin esnekliğini ve özellikle belirli kısıtlamalara uyma konusundaki detaylara dikkatini kontrol eder. Mart ayından Haziran ayına kadar olan düşüş, GPT-4'ün karmaşık talimatları ele alma yeteneğinde bir azalma olduğunu gösteriyor.
İçerik Filtreleme
Bu talimat, modelin belirli konuları veya hassas bilgileri hariç tutmasını gerektirir. Mart ayında GPT-4, bu filtreleme gereksinimlerine büyük ölçüde uydu, ancak Haziran ayına gelindiğinde filtreleme yeteneği önemli ölçüde azaldı ve hassas konuların yalnızca yaklaşık %19'u doğru bir şekilde ele alındı.
Araştırmanın Sonuçları
Araştırmacılar, GPT-3.5 ve GPT-4'ün kapalı kaynaklı modeller olması nedeniyle OpenAI'nin eğitim verilerini ve süreçlerini açıklamadığını belirtti. Bu şeffaflık eksikliği, kullanıcıların her büyük güncellemede meydana gelen değişikliklerin genellikle farkında olmadığı anlamına gelir. Bu çalışma, geliştiricilerin ve kullanıcıların ChatGPT'nin performansını ve davranışsal dinamiklerini anlamalarına yardımcı olabilir; bu da modelin güvenliğini ve içerik doğruluğunu sağlamak için kritik öneme sahiptir. Çalışma, özellikle hızla gelişen ortamlarda bu modellerin tutarlılığını ve güvenilirliğini korumanın zorluklarını vurgulamaktadır.