Published on

DeepSeek V3: Model Sumber Terbuka Terobosan dengan Performa Unggul

Penulis
  • avatar
    Nama
    Ajax
    Twitter

Pengantar DeepSeek V3

DeepSeek V3, sebuah model Mixture-of-Experts (MoE) dengan 671 miliar parameter, telah dirilis dan dibuka sumbernya, menciptakan gebrakan di komunitas AI. Model ini dilatih dengan 14.8 triliun token berkualitas tinggi, dengan hanya 37 miliar parameter yang aktif selama inferensi.

Model ini mencapai performa state-of-the-art (SOTA) di antara model sumber terbuka, melampaui Llama 3.1 405B dan menyaingi model-model teratas seperti GPT-4o dan Claude 3.5 Sonnet. Menariknya, DeepSeek V3 jauh lebih murah dibandingkan model Claude 3.5, hanya memakan biaya 9% dari Claude 3.5 Sonnet.

Efisiensi Biaya Pelatihan

Pelatihan DeepSeek V3 memerlukan kurang dari 2.8 juta jam GPU, kontras yang mencolok dengan 30.8 juta jam GPU yang dibutuhkan Llama 3 405B. Total biaya pelatihan DeepSeek V3 diperkirakan sekitar 5.576juta,sementaramelatihmodelLlama27Bmembutuhkanbiaya5.576 juta, sementara melatih model Llama 2 7B membutuhkan biaya 760.000.

Efisiensi biaya ini disebabkan oleh algoritma, kerangka kerja, dan perangkat keras yang dioptimalkan. Karpathy, seorang anggota pendiri OpenAI, mencatat bahwa DeepSeek V3 mencapai performa yang sebanding dengan sumber daya yang jauh lebih sedikit, menyoroti potensi optimasi dalam data dan algoritma.

Performa dan Evaluasi

DeepSeek V3 telah menerima pujian dari para ahli AI seperti Jia Yangqing dan Tian Yundong dari Meta. Model ini mengungguli model sumber terbuka lainnya seperti Qwen2.5-72B dan Llama-3.1-405B dalam berbagai tolok ukur. Performa model ini setara dengan model tertutup teratas seperti GPT-4o dan Claude-3.5-Sonnet.

DeepSeek V3 menghasilkan token dengan kecepatan 60 per detik, peningkatan kecepatan 3x lipat. Harga API juga sangat kompetitif, dengan token input seharga 0.5-2 RMB per juta dan token output seharga 8 RMB per juta. Evaluasi Kagi menempatkan DeepSeek V3 di puncak model sumber terbuka, dekat dengan Sonnet-3.5 dan GPT-4o.

Keterlibatan Komunitas

Model ini tersedia untuk pengujian di platform resmi, dengan kode sumber terbuka untuk diunduh. Para penggemar AI telah bereksperimen dengan DeepSeek V3, termasuk menjalankannya di tumpukan Mac Mini. Para pengembang telah menyatakan kekagumannya atas kemampuan model untuk memahami instruksi yang kompleks tanpa penjelasan eksplisit.

Seorang pengembang membuat game menggunakan logo perusahaan AI dengan DeepSeek V3 dalam waktu singkat. Biaya rendah untuk menjalankan DeepSeek V3 telah disoroti, dengan satu pengguna mencatat bahwa hanya membutuhkan biaya $2 per hari untuk menjalankan dengan kecepatan 60 token per detik.

Detail Pelatihan

Pelatihan DeepSeek V3 dioptimalkan melalui peningkatan algoritma, kerangka kerja, dan perangkat keras. Model ini dilatih dengan satu triliun token dalam 180.000 jam GPU, menyelesaikan pra-pelatihan dalam waktu kurang dari dua bulan. Total biaya pelatihan adalah 2.788 juta jam GPU, atau $5.576 juta.

Optimasi utama meliputi:

  • Load Balancing: Strategi penyeimbangan beban baru dengan istilah bias untuk setiap ahli dalam arsitektur MoE.
  • Multi-Token Prediction (MTP): Tujuan pelatihan yang meningkatkan performa model dan memungkinkan inferensi lebih cepat melalui speculative decoding.
  • FP8 Training: Penggunaan pelatihan presisi campuran FP8, menunjukkan kelayakannya untuk model skala besar.
  • DualPipe: Algoritma paralel pipeline yang efisien yang tumpang tindih antara komputasi dan komunikasi, mengurangi overhead komunikasi.

Arsitektur MoE terdiri dari 256 ahli perutean dan 1 ahli bersama, dengan setiap token mengaktifkan 8 ahli dan dikirim ke maksimum 4 node. Ahli redundan digunakan untuk menyeimbangkan beban selama inferensi. Kemampuan inferensi model ditingkatkan dengan menyuling pengetahuan dari model long-chain (DeepSeek R1).

Hasil Eksperimental

DeepSeek V3 mencapai performa SOTA di antara model sumber terbuka dalam berbagai tolok ukur. Model ini berkinerja baik dalam eksperimen "jarum dalam tumpukan jerami", menunjukkan kemampuannya untuk mengambil informasi spesifik dari konteks yang panjang.

Sumber Daya