Published on

DeepSeek V3: Çığır Açan Açık Kaynaklı Bir Model

Yazarlar
  • avatar
    Ad
    Ajax
    Twitter

DeepSeek V3: Çığır Açan Açık Kaynaklı Bir Model

DeepSeek V3, yapay zeka topluluğunda büyük heyecan yaratan, 671 milyar parametreli bir Uzmanlar Karışımı (MoE) modelidir. Bu model, 14.8 trilyon yüksek kaliteli token üzerinde eğitilmiştir ve çıkarım sırasında yalnızca 37 milyar parametre aktiftir. Bu, modelin hem yüksek performans göstermesini hem de kaynakları verimli kullanmasını sağlamaktadır.

Genel Bakış

DeepSeek V3, açık kaynaklı modeller arasında en üst düzeyde (SOTA) performans göstermektedir. Llama 3.1 405B modelini geride bırakırken, GPT-4o ve Claude 3.5 Sonnet gibi en iyi modellerle rekabet etmektedir. Özellikle, DeepSeek V3'ün Claude 3.5 modellerine göre çok daha uygun maliyetli olması, onu cazip bir seçenek haline getirmektedir. Claude 3.5 Sonnet'in maliyetinin yalnızca %9'u kadar bir maliyetle çalışmaktadır.

Maliyet Etkin Eğitim

DeepSeek V3'ün eğitimi, 2.8 milyon GPU saatinden daha az bir süre almıştır. Bu, Llama 3 405B'nin 30.8 milyon GPU saatine kıyasla büyük bir fark yaratmaktadır. DeepSeek V3'ün toplam eğitim maliyeti yaklaşık 5.576 milyon dolar iken, 7B Llama 2 modelinin eğitimi 760.000 dolara mal olmuştur. Bu maliyet etkinliği, optimize edilmiş algoritmalar, çerçeveler ve donanımlar sayesinde elde edilmiştir.

OpenAI'nin kurucu üyesi olan Karpathy, DeepSeek V3'ün çok daha az kaynakla benzer performansı elde ettiğini belirtmiştir. Bu, veri ve algoritmalarda optimizasyon potansiyelini göstermektedir.

Performans ve Değerlendirme

DeepSeek V3, Jia Yangqing ve Meta'dan Tian Yundong gibi yapay zeka uzmanlarından övgüler almıştır. Çeşitli kıyaslamalarda Qwen2.5-72B ve Llama-3.1-405B gibi diğer açık kaynaklı modelleri geride bırakmaktadır. Modelin performansı, GPT-4o ve Claude-3.5-Sonnet gibi kapalı kaynaklı üst düzey modellerle karşılaştırılabilir düzeydedir.

DeepSeek V3, saniyede 60 token üretebilmektedir, bu da 3 kat daha hızlı bir iyileşme anlamına gelmektedir. API fiyatlandırması da oldukça rekabetçidir. Giriş tokenleri milyon başına 0.5-2 RMB, çıkış tokenleri ise milyon başına 8 RMB'dir. Kagi'nin değerlendirmesi, DeepSeek V3'ü açık kaynaklı modellerin en üstüne yerleştirmekte ve Sonnet-3.5 ve GPT-4o'nun hemen arkasında göstermektedir.

Topluluk Katılımı

Model, resmi platformda test edilmeye açıktır ve kod açık kaynaklı olarak indirilmeye sunulmuştur. Yapay zeka meraklıları, DeepSeek V3 ile denemeler yapmaktadırlar. Hatta bazıları, yığılmış Mac Mini'lerde bile çalıştırmaktadır. Geliştiriciler, modelin karmaşık talimatları açık açıklamalar olmadan anlama yeteneğine hayran kalmışlardır. Bir geliştirici, DeepSeek V3'ü kullanarak kısa sürede yapay zeka şirketi logolarıyla bir oyun oluşturmuştur.

DeepSeek V3'ü çalıştırmanın düşük maliyeti vurgulanmıştır. Bir kullanıcı, saniyede 60 token hızında çalıştırmanın günlük maliyetinin sadece 2 dolar olduğunu belirtmiştir.

Eğitim Detayları

DeepSeek V3'ün eğitimi, algoritmik, çerçeve ve donanım iyileştirmeleri yoluyla optimize edilmiştir. Model, 180.000 GPU saatinde bir trilyon token üzerinde eğitilmiş ve ön eğitim iki aydan kısa sürede tamamlanmıştır. Toplam eğitim maliyeti 2.788 milyon GPU saati veya 5.576 milyon dolar olmuştur.

Başlıca optimizasyonlar şunlardır:

  • Yük Dengeleme: MoE mimarisindeki her uzman için bias terimleri içeren yeni bir yük dengeleme stratejisi.
  • Çoklu Token Tahmini (MTP): Model performansını artıran ve spekülatif kod çözme yoluyla daha hızlı çıkarımı sağlayan bir eğitim hedefi.
  • FP8 Eğitimi: Büyük ölçekli modeller için fizibilitesini gösteren FP8 karma hassasiyetli eğitimin kullanımı.
  • DualPipe: Hesaplama ve iletişimi örtüştüren, iletişim yükünü azaltan verimli bir boru hattı paralel algoritması.

MoE mimarisi, 256 yönlendirme uzmanı ve 1 paylaşılan uzmandan oluşmaktadır. Her token 8 uzmanı etkinleştirmekte ve maksimum 4 düğüme gönderilmektedir. Çıkarım sırasında yükü dengelemek için yedek uzmanlar konuşlandırılmıştır. Modelin çıkarım yetenekleri, uzun zincirli bir model olan DeepSeek R1'den bilgi damıtılarak geliştirilmiştir.

Deneysel Sonuçlar

DeepSeek V3, çeşitli kıyaslamalarda açık kaynaklı modeller arasında SOTA performansına ulaşmıştır. Model, "iğne-samanlıkta" deneylerinde iyi performans göstermekte ve uzun bağlamlardan belirli bilgileri alma yeteneğini sergilemektedir.

Kaynaklar