- Published on
DeepSeek V3:突破性的開源模型,媲美 GPT-4o 且成本更低
DeepSeek V3:劃時代的開源模型
DeepSeek V3,一個擁有 6710 億參數的混合專家(MoE)模型,已正式發布並開源,在人工智慧社群中掀起了一陣波瀾。這個模型在 14.8 兆個高品質的 token 上進行了訓練,但在推理過程中僅啟用了 370 億個參數。令人驚豔的是,DeepSeek V3 在開源模型中達到了最先進(SOTA)的效能,不僅超越了 Llama 3.1 405B,更足以與 GPT-4o 和 Claude 3.5 Sonnet 等頂級模型相抗衡。更重要的是,DeepSeek V3 的成本遠低於 Claude 3.5 模型,僅為 Claude 3.5 Sonnet 的 9%。
訓練成本效益
DeepSeek V3 的訓練僅需不到 280 萬個 GPU 小時,與 Llama 3 405B 的 3080 萬個 GPU 小時形成了鮮明對比。DeepSeek V3 的總訓練成本約為 557.6 萬美元,而訓練一個 7B 的 Llama 2 模型則需要 76 萬美元。這種成本效益歸功於優化的演算法、框架和硬體。OpenAI 的創始成員 Karpathy 指出,DeepSeek V3 以顯著更少的資源實現了可比的效能,突顯了數據和演算法優化的巨大潛力。
效能與評估
DeepSeek V3 獲得了賈揚清和 Meta 的田雲棟等人工智慧專家的讚譽。在各種基準測試中,它都優於其他開源模型,如 Qwen2.5-72B 和 Llama-3.1-405B。該模型的效能可與 GPT-4o 和 Claude-3.5-Sonnet 等頂級封閉源模型相媲美。DeepSeek V3 每秒可生成 60 個 token,速度提高了 3 倍。API 定價也極具競爭力,輸入 token 的成本為每百萬 0.5-2 人民幣,輸出 token 的成本為每百萬 8 人民幣。Kagi 的評估將 DeepSeek V3 列為開源模型中的佼佼者,僅次於 Sonnet-3.5 和 GPT-4o。
社群參與
該模型可在官方平台上進行測試,程式碼已開源供下載。人工智慧愛好者一直在嘗試 DeepSeek V3,包括在堆疊的 Mac Mini 上運行它。開發人員對該模型無需明確解釋就能理解複雜指令的能力感到驚訝。一位開發人員在短時間內使用 DeepSeek V3 創建了一個帶有 AI 公司標誌的遊戲。運行 DeepSeek V3 的低成本也受到關注,一位用戶指出,以每秒 60 個 token 的速度運行,每天只需 2 美元。
訓練詳情
DeepSeek V3 的訓練透過演算法、框架和硬體的改進進行了優化。該模型在 18 萬個 GPU 小時內,於 1 兆個 token 上進行了訓練,並在不到兩個月的時間內完成了預訓練。總訓練成本為 278.8 萬個 GPU 小時,即 557.6 萬美元。主要的優化包括:
- 負載平衡:一種新穎的負載平衡策略,為 MoE 架構中的每個專家設定了偏差項。
- 多 token 預測(MTP):一種訓練目標,可提高模型效能,並透過推測性解碼實現更快的推理。
- FP8 訓練:使用 FP8 混合精度訓練,證明了其在大型模型中的可行性。
- DualPipe:一種高效的管線平行演算法,可重疊計算和通訊,減少通訊開銷。
MoE 架構包含 256 個路由專家和 1 個共享專家,每個 token 激活 8 個專家,並被發送到最多 4 個節點。部署冗餘專家以平衡推理期間的負載。該模型的推理能力透過從長鏈模型(DeepSeek R1)中提煉知識而得到增強。
實驗結果
DeepSeek V3 在各種基準測試中均達到了開源模型中的 SOTA 效能。該模型在「大海撈針」實驗中表現良好,證明了其從長上下文中檢索特定資訊的能力。
深入探討 DeepSeek V3 的技術細節與應用潛力
DeepSeek V3 的發布不僅僅是一個新模型的誕生,更代表了人工智慧領域在效率和成本效益上的一大進步。這個模型之所以能在眾多開源模型中脫穎而出,除了其卓越的效能之外,更重要的是其背後所採用的創新技術和優化策略。
混合專家(MoE)架構的優勢
DeepSeek V3 採用了混合專家(MoE)架構,這是其效能卓越的關鍵因素之一。MoE 架構允許模型在推理過程中只激活部分參數,而非全部參數,這大大降低了計算需求,同時保持了模型的強大能力。具體來說,DeepSeek V3 擁有 256 個路由專家和 1 個共享專家,每個 token 只會激活 8 個專家,並將其分配到最多 4 個節點。這種設計不僅提高了運算效率,也使得模型能夠處理更複雜的任務。
訓練過程中的關鍵優化
DeepSeek V3 的訓練過程也經過了精心的優化,包括:
- 負載平衡策略:為了確保每個專家都能得到充分利用,DeepSeek V3 採用了一種新穎的負載平衡策略,為每個專家設定了偏差項。這使得模型在訓練過程中能夠更有效地分配計算資源,提高整體效率。
- 多 token 預測(MTP):MTP 是一種訓練目標,旨在提高模型的效能和推理速度。透過推測性解碼,模型能夠更快地生成文本,這對於實時應用至關重要。
- FP8 混合精度訓練:FP8 混合精度訓練是一種新的訓練技術,它允許模型在較低的精度下進行訓練,從而降低了計算和記憶體的需求。DeepSeek V3 是首批採用 FP8 訓練的大型模型之一,這證明了該技術在大型模型中的可行性。
- DualPipe 演算法:DualPipe 是一種高效的管線平行演算法,它能夠重疊計算和通訊,從而減少通訊開銷。這對於大型模型的訓練至關重要,因為通訊開銷往往是瓶頸之一。
DeepSeek V3 的應用潛力
DeepSeek V3 的卓越效能和低成本使其在各個領域都具有廣闊的應用前景,包括:
- 自然語言處理:DeepSeek V3 可以用於各種自然語言處理任務,如文本生成、翻譯、問答和情感分析。
- 程式碼生成:DeepSeek V3 可以生成程式碼,協助開發人員提高開發效率。
- 創意內容生成:DeepSeek V3 可以生成各種創意內容,如故事、詩歌和音樂。
- 教育:DeepSeek V3 可以用於個性化學習、輔導和評估。
- 客戶服務:DeepSeek V3 可以用於自動化客戶服務,回答客戶問題和解決客戶問題。
與其他模型的比較
DeepSeek V3 在效能上可與 GPT-4o 和 Claude 3.5 Sonnet 等頂級模型相媲美,但其成本卻顯著降低。這使得 DeepSeek V3 成為一個更具吸引力的選擇,尤其是在資源有限的情況下。此外,DeepSeek V3 的開源性質也使得其更容易被廣泛採用和研究,這將進一步推動人工智慧技術的發展。
社群的積極響應
DeepSeek V3 的發布在人工智慧社群中引起了廣泛的關注和討論。許多開發人員和研究人員都在積極嘗試 DeepSeek V3,並分享他們的經驗和發現。這種社群的參與和回饋對於模型的改進和發展至關重要。
總而言之,DeepSeek V3 的出現不僅是技術上的突破,也是人工智慧發展的一個重要里程碑。它證明了透過創新技術和優化策略,我們可以開發出更高效、更經濟的人工智慧模型,並將其應用於更廣泛的領域,造福人類社會。
###資源
- 技術報告:DeepSeek_V3.pdf
- Hugging Face:DeepSeek-V3