- Published on
OpenAI Model Parametreleri Sızdırıldı: Microsoft Makalesi GPT4o Boyutunu Ortaya Çıkardı
OpenAI Model Parametreleri Sızdırıldı: Microsoft Makalesi GPT4o Boyutunu Ortaya Çıkardı
Teknoloji dünyasında, büyük dil modellerinin (LLM) parametre boyutları her zaman büyük bir gizlilikle korunmuştur. Ancak, yakın zamanda Microsoft ve Washington Üniversitesi ekiplerinin ortaklaşa yayınladığı bir tıp makalesi, OpenAI'nin çeşitli modellerine ait parametre bilgilerini yanlışlıkla açığa çıkararak büyük bir ilgi yarattı.
Parametrelerin Sızdırılması
Bu makalede ortaya çıkan temel bilgiler şunları içeriyor:
- GPT-4: Yaklaşık 1.76 trilyon parametre
- GPT-4o: Yaklaşık 200 milyar parametre
- GPT-4o mini: Yaklaşık 8 milyar parametre
- o1-preview: Yaklaşık 300 milyar parametre
- o1-mini: Yaklaşık 100 milyar parametre
- Claude 3.5 Sonnet: Yaklaşık 175 milyar parametre
Araştırmacılar, bu parametrelerin tahmin değerleri olduğunu belirtiyorlar.
GPT-4o Serisi Parametreleri Üzerine Tartışmalar
GPT-4o serisinin parametre miktarlarının beklenenden çok daha düşük olması, özellikle mini versiyonun sadece 8 milyar parametreye sahip olması şaşkınlık yarattı. Bazı internet kullanıcıları, GPT-4o mini'nin aslında 8 milyar parametre aktif eden bir karma uzman modeli (MoE) mimarisi kullanıyor olabileceğini ve modelin genel parametre sayısının 400 milyara ulaşabileceğini tahmin ediyor. Bu mimari, küçük modellerin daha fazla bilgi öğrenmesini ve aynı zamanda çalışma hızını korumasını sağlayabilir.
Claude 3.5 Sonnet Parametre Karşılaştırması
Ayrıca, Claude 3.5 Sonnet'in parametre miktarının GPT-3 davinci ile benzer olduğu belirtiliyor. Bu durum, farklı modellerin performansları ile boyutları arasındaki ilişki hakkında daha fazla düşünceye yol açıyor.
MEDEC Referans Noktası: Tıbbi Hata Tespitinde Yeni Standart
Parametreleri sızdıran bu makale aslında, büyük dil modellerinin tıbbi hata tespit ve düzeltme görevlerindeki performansını değerlendirmek amacıyla geliştirilen MEDEC1 adlı bir değerlendirme referans noktası hakkındadır. Bu referans noktası, klinik notlardaki hatalara odaklanmakta ve tanı, yönetim, tedavi, ilaç tedavisi ve etken faktörler gibi beş alanı kapsamaktadır.
Veri Kaynakları ve Özellikleri
MEDEC veri seti, üç Amerikan hastane sisteminden alınan 488 klinik notu içermekte olup, toplamda 3848 klinik metinden oluşmaktadır. Bu veriler, daha önce hiçbir büyük dil modeline sunulmamış olup, değerlendirmenin gerçekliğini ve güvenilirliğini sağlamaktadır. Şu anda bu veri seti, 17 katılımcı sistemin performansını değerlendirmek için MEDIQA-CORR ortak görevinde kullanılmaktadır.
Testler ve Sonuçlar
Araştırma ekibi, MEDEC veri setini kullanarak o1-preview, GPT-4, Claude 3.5 Sonnet ve Gemini 2.0 Flash gibi çeşitli gelişmiş modelleri test etti. Ayrıca, aynı hata tespit görevine katılan iki uzman doktor ile insan-makine karşılaştırması yapıldı. Sonuçlar, büyük dil modellerinin tıbbi hata tespit ve düzeltme konusunda dikkat çekici bir performans sergilemesine rağmen, insan doktorlara kıyasla hala eksiklikleri olduğunu gösteriyor. Bu durum, MEDEC'in zorlu bir değerlendirme referans noktası olduğunu kanıtlıyor.
Makalenin Temel İçeriği: Tıp Alanında LLM Uygulamaları ve Zorlukları
Makale, Amerikan sağlık kuruluşlarının yaptığı bir araştırmaya göre, klinik notları okuyan her beş hastadan birinin hata tespit ettiğini belirtiyor. Bu hataların %40'ının ciddi olduğu ve en sık görülen hataların tanı ile ilgili olduğu ifade ediliyor.
LLM'lerin Tıbbi Belge Uygulamalarındaki Riskler
Büyük dil modelleri tarafından giderek daha fazla tıbbi belge görevi (klinik not oluşturma gibi) yapıldıkça, LLM'lerin çıktı bilgilerinin doğruluğunu ve güvenliğini sağlamak hayati önem taşıyor. LLM'ler, yanılsama üretebilir, yanlış veya uydurma içerik sunabilir ve bu durum klinik kararları ciddi şekilde etkileyebilir.
MEDEC Referans Noktasının Önemi
Bu sorunları çözmek ve LLM'lerin tıbbi içerik üretimindeki güvenliğini sağlamak için, sıkı doğrulama yöntemleri gereklidir. MEDEC referans noktasının tanıtılması, modellerin klinik metinlerdeki tıbbi hataları tespit etme ve düzeltme yeteneklerini değerlendirmeyi amaçlamaktadır.
MEDEC Veri Setinin Oluşturulması
MEDEC veri seti, farklı tıp alanlarından 3848 klinik metin içermekte ve 8 tıbbi etiketleyici tarafından etiketlenmiştir. Bu veri seti, beş tür hatayı kapsar:
- Tanı (Diagnosis): Sunulan tanının yanlış olması.
- Yönetim (Management): Sunulan yönetimde bir sonraki adımın yanlış olması.
- İlaç Tedavisi (Pharmacotherapy): Önerilen ilaç tedavisinin yanlış olması.
- Tedavi (Treatment): Önerilen tedavi planının yanlış olması.
- Etken Faktör (Causal Organism): Belirtilen patojen organizmanın veya patojenin yanlış olması.
Bu hata türlerinin seçimi, tıp kurulu sınavlarında en sık karşılaşılan soru türlerine dayanmaktadır.
Veri Oluşturma Yöntemleri
Veri setinin oluşturulmasında iki yöntem kullanılmıştır:
- Yöntem #1 (MS): MedQA koleksiyonundaki tıp kurulu sınav sorularından yararlanarak, tıp alanında uzman olan etiketleyiciler tarafından senaryo metinlerine yanlış cevaplar eklenmiştir.
- Yöntem #2 (UW): Washington Üniversitesi'ndeki üç hastane sisteminin gerçek klinik not veri tabanları kullanılarak, tıp öğrencileri tarafından kayıtlara manuel olarak hatalar eklenmiştir.
Her iki yöntem de sıkı kalite kontrolünden geçirilerek, verilerin doğruluğu ve güvenilirliği sağlanmıştır.
Tıbbi Hata Tespit ve Düzeltme Yöntemleri
Modellerin tıbbi hata tespit ve düzeltme görevlerindeki performansını değerlendirmek için, araştırma ekibi bu süreci üç alt göreve ayırmıştır:
- Alt Görev A: Hata işaretini tahmin etme (0: hata yok; 1: hata var).
- Alt Görev B: Hata içeren cümleleri çıkarma.
- Alt Görev C: Hata içeren cümleler için düzeltilmiş içerik üretme.
Araştırma ekibi, LLM'lere dayalı çözümler geliştirmiş ve gerekli çıktıları üretmek için iki farklı istem kullanmıştır.
Deneyler ve Sonuçlar
Dil Modelleri
Araştırmacılar, Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini ve o1-preview gibi çeşitli dil modelleri üzerinde deneyler yapmıştır.
Deney Sonuçlarının Analizi
Deney sonuçları, Claude 3.5 Sonnet'in hata işareti tespiti ve hata cümle tespiti konusunda başarılı olduğunu göstermiştir. O1-preview ise hata düzeltme konusunda en iyi performansı sergilemiştir. Ancak, tüm modeller hala tıbbi hata tespit ve düzeltme konusunda insan doktorlara göre eksiktir. Sonuçlar ayrıca, modellerin doğruluk konusunda sorun yaşadığını ve birçok durumda hataların varlığını aşırı tahmin ettiğini (yani yanılsama ürettiğini) göstermektedir. Ek olarak, sınıflandırma performansı ile hata düzeltme üretimi performansı arasında bir sıralama farkı bulunmaktadır.
Hata Türü Analizi
Farklı hata türlerinin tespiti ve düzeltilmesi konusunda, o1-preview hata işareti ve cümle tespitinde yüksek hatırlama oranlarına sahipken, doktorlar doğruluk oranında daha iyi performans göstermiştir.
Gelecek Araştırma Yönleri
Araştırmacılar, bir sonraki araştırma yönlerinin, istemlere daha fazla örnek eklemek ve optimize etmek olduğunu ve böylece modellerin tıbbi hata tespit ve düzeltme performansının daha da artırılacağını belirtiyorlar.