Published on

Deepseek'in Yeni Modeli Beklenmedik Şekilde Ortaya Çıktı: Programlama Kriterleri Claude 3.5 Sonnet'i Aştı

Yazarlar
  • avatar
    Ad
    Ajax
    Twitter

Deepseek-v3: Yeni Bir Çağın Başlangıcı

Deepseek-v3'ün sızdırılması, yapay zeka dünyasında büyük bir heyecan yarattı. Duyurulmamış bu model, şimdiden etkileyici bir performans sergileyerek dikkatleri üzerine çekti. Özellikle programlama alanındaki başarıları, onu rakiplerinden ayırıyor. Claude 3.5 Sonnet'i Aider çok dilli programlama kriterinde geçmesi, bu modelin ne kadar güçlü olduğunun bir göstergesi. Üstelik Deepseek-v3, LiveBench değerlendirme platformunda şu anda en güçlü açık kaynaklı dil modeli (LLM) konumunda. Bu başarı, modelin mimarisine ve yenilikçi yaklaşımlarına dayanıyor. 685 milyar parametrelik devasa MoE (Uzmanlar Karışımı) yapısı, modelin önceki versiyonlarına kıyasla önemli iyileştirmeler sunuyor.

Sızıntının Perde Arkası

Modelin sızdırılması, Reddit kullanıcıları tarafından fark edildi. Kullanıcılar, modelin API'lerde ve web sayfalarında erişilebilir olduğunu tespit etti. Bu beklenmedik durum, Deepseek-v3'ün performansının çeşitli kriterlerde değerlendirilmesine yol açtı. Aider ve LiveBench gibi platformlarda yapılan testler, modelin ne kadar iddialı olduğunu ortaya koydu. Açık kaynaklı ağırlıklarının Hugging Face'te mevcut olması, modelin daha geniş bir kitleye ulaşmasını sağladı. Ancak henüz bir model kartının olmaması, bazı kullanıcılar için eksiklik olarak görülebilir.

Deepseek-v3'ün Teknik Detayları

Model Mimarisi

Deepseek-v3, 685 milyar parametreye sahip devasa bir dil modelidir. MoE mimarisi, 256 uzmandan oluşur. Yönlendirme için sigmoid fonksiyonu kullanılır ve her seferinde en iyi 8 uzman (Top-k=8) seçilir. Bağlam penceresi 64K'yı destekler; varsayılan olarak 4K, maksimum olarak ise 8K olarak ayarlanmıştır. Token oluşturma hızı saniyede yaklaşık 60 tokendir.

V2'ye Göre Temel Mimari Değişiklikler

Deepseek-v3, önceki versiyonu olan v2'ye göre önemli mimari değişiklikler içerir. Kapı fonksiyonu olarak softmax yerine sigmoid kullanılması, modelin daha geniş bir uzman yelpazesinden seçim yapabilmesini sağlar. Softmax, genellikle birkaç uzmanı tercih ederken, sigmoid daha adil bir dağılım sunar. Top-k seçiminde ise yeni bir noaux_tc yöntemi kullanılmıştır. Bu yöntem, ek bir kayıp fonksiyonuna ihtiyaç duymadan doğrudan ana görev kaybını kullanır, bu da eğitimi basitleştirir ve verimliliği artırır. Ayrıca uzman puanlarını ayarlamak için yeni bir parametre olan e_score_correction_bias eklenmiştir. Bu, uzman seçimi ve model eğitimi sırasında daha iyi performans sağlar.

V2 ve V2.5 ile Karşılaştırma

Deepseek-v3, v2'nin geliştirilmiş bir versiyonudur. Tüm parametrelerde önemli iyileştirmeler sunar. v2.5 ile karşılaştırıldığında ise daha fazla uzman, daha büyük ara katman boyutları ve token başına daha fazla uzman gibi konfigürasyon avantajları bulunur. Bu da v3'ü performans açısından daha üstün kılar.

Kullanıcı Testleri ve Gözlemler

İlk Testler

Geliştirici Simon Willison, Deepseek-v3'ü test etti ve modelin kendisini OpenAI'nin GPT-4 mimarisine dayalı olarak tanımladığını fark etti. Bu durum, modelin eğitim sürecinde OpenAI model yanıtlarını kullanmış olabileceği şüphesini doğurdu. Model ayrıca görüntü oluşturma konusunda da test edildi ve bisiklete binen bir pelikanın SVG görüntüsünü başarıyla oluşturdu.

Beklenmedik Kendini Tanımlama

Çok sayıda kullanıcı, Deepseek-v3'ün kendini OpenAI modellerine dayalı olarak tanımladığını bildirdi. Bu durum, modelin eğitim sürecinde OpenAI'nin model yanıtlarını kullanmış olabileceği ihtimalini güçlendirdi. Bu beklenmedik durum, modelin nasıl eğitildiği ve hangi verileri kullandığı konusunda bazı soruları beraberinde getirdi.

Topluluk Tepkisi

Deepseek-v3'ün beklenmedik çıkışı ve güçlü performansı, yapay zeka topluluğunda büyük bir heyecan yarattı. Bazı kullanıcılar, özellikle açık kaynak alanında Deepseek-v3'ün performansının OpenAI modellerini aştığına inanıyor. Bu durum, açık kaynaklı yapay zeka modellerinin geleceği açısından umut verici bir gelişme olarak değerlendiriliyor. Modelin erişilebilirliği ve performansı, daha fazla geliştirici ve araştırmacının bu alana katkıda bulunmasına olanak tanıyabilir.

Ek Kaynaklar