- Published on
DeepSeek V3: Model Sumber Terbuka Terobosan dengan Prestasi Unggul
Pengenalan kepada DeepSeek V3
DeepSeek V3, sebuah model Mixture-of-Experts (MoE) dengan 671 bilion parameter, telah dilancarkan dan dibuka sebagai sumber terbuka, mencetuskan kegembiraan dalam komuniti AI. Model ini dilatih dengan 14.8 trilion token berkualiti tinggi dan hanya 37 bilion parameter yang diaktifkan semasa inferens. Pencapaian model ini sangat mengagumkan, dengan prestasi state-of-the-art (SOTA) di kalangan model sumber terbuka, melepasi Llama 3.1 405B dan bersaing dengan model terkemuka seperti GPT-4o dan Claude 3.5 Sonnet. Lebih menarik lagi, DeepSeek V3 jauh lebih murah berbanding model Claude 3.5, hanya 9% daripada kos Claude 3.5 Sonnet.
Latihan yang Kos Efektif
Latihan DeepSeek V3 memerlukan kurang daripada 2.8 juta jam GPU, satu perbezaan yang ketara berbanding 30.8 juta jam GPU yang diperlukan oleh Llama 3 405B. Jumlah kos latihan untuk DeepSeek V3 adalah kira-kira 760,000. Keberkesanan kos ini disumbangkan oleh algoritma, rangka kerja, dan perkakasan yang dioptimumkan. Karpathy, seorang ahli pengasas OpenAI, menyatakan bahawa DeepSeek V3 mencapai prestasi yang setanding dengan sumber yang jauh lebih sedikit, menekankan potensi pengoptimuman dalam data dan algoritma.
Prestasi dan Penilaian
DeepSeek V3 telah menerima pujian daripada pakar AI seperti Jia Yangqing dan Tian Yundong dari Meta. Model ini mengatasi model sumber terbuka lain seperti Qwen2.5-72B dan Llama-3.1-405B dalam pelbagai penanda aras. Prestasi model ini setanding dengan model tertutup terkemuka seperti GPT-4o dan Claude-3.5-Sonnet. DeepSeek V3 menjana token pada kadar 60 sesaat, satu peningkatan kelajuan sebanyak 3x. Harga API juga sangat kompetitif, dengan token input berharga 0.5-2 RMB per juta dan token output berharga 8 RMB per juta. Penilaian Kagi meletakkan DeepSeek V3 di kedudukan teratas di kalangan model sumber terbuka, hampir menyamai Sonnet-3.5 dan GPT-4o.
Penglibatan Komuniti
Model ini tersedia untuk ujian di platform rasmi, dengan kod sumber terbuka untuk dimuat turun. Peminat AI telah bereksperimen dengan DeepSeek V3, termasuk menjalankannya pada Mac Mini yang disusun. Pembangun telah menyatakan kekaguman mereka terhadap keupayaan model ini untuk memahami arahan yang kompleks tanpa penjelasan yang eksplisit. Seorang pembangun mencipta permainan menggunakan logo syarikat AI dengan DeepSeek V3 dalam masa yang singkat. Kos rendah untuk menjalankan DeepSeek V3 telah ditonjolkan, dengan seorang pengguna menyatakan bahawa ia hanya menelan kos $2 sehari untuk berjalan pada 60 token sesaat.
Perincian Latihan
Latihan DeepSeek V3 dioptimumkan melalui peningkatan algoritma, rangka kerja, dan perkakasan. Model ini dilatih dengan satu trilion token dalam 180,000 jam GPU, menyelesaikan pra-latihan dalam masa kurang dari dua bulan. Jumlah kos latihan adalah 2.788 juta jam GPU, atau $5.576 juta. Pengoptimuman utama termasuk:
- Pengimbangan Beban: Strategi pengimbangan beban baharu dengan terma bias untuk setiap pakar dalam seni bina MoE.
- Ramalan Pelbagai Token (MTP): Objektif latihan yang meningkatkan prestasi model dan membolehkan inferens yang lebih cepat melalui penyahkodan spekulatif.
- Latihan FP8: Penggunaan latihan ketepatan campuran FP8, menunjukkan kebolehannya untuk model berskala besar.
- DualPipe: Algoritma selari paip yang cekap yang bertindih pengiraan dan komunikasi, mengurangkan overhead komunikasi.
Seni bina MoE terdiri daripada 256 pakar penghalaan dan 1 pakar bersama, dengan setiap token mengaktifkan 8 pakar dan dihantar ke maksimum 4 nod. Pakar berlebihan digunakan untuk mengimbangi beban semasa inferens. Keupayaan inferens model ini dipertingkatkan dengan menyaring pengetahuan daripada model rantai panjang (DeepSeek R1).
Keputusan Eksperimen
DeepSeek V3 mencapai prestasi SOTA di kalangan model sumber terbuka dalam pelbagai penanda aras. Model ini berprestasi baik dalam eksperimen "jarum dalam timbunan jerami", menunjukkan keupayaannya untuk mendapatkan maklumat khusus dari konteks yang panjang.
Sumber
- Laporan Teknikal: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3