Published on

Deepseek V3 模型意外洩露:程式碼基準測試超越 Claude 3.5 Sonnet

Authors
  • avatar
    Name
    Ajax
    Twitter

Deepseek-v3 模型意外洩露:程式碼基準測試超越 Claude 3.5 Sonnet

Deepseek-v3,一個未經官方發布的模型,在網路上意外洩露,並展現出令人印象深刻的效能。它在 Aider 多語程式碼基準測試中超越了 Claude 3.5 Sonnet,並且目前在 LiveBench 評估平台上被認為是最強大的開源大型語言模型(LLM)。此模型的架構採用了 6850 億參數的 MoE(混合專家)結構,相較於之前的版本有著顯著的改進。

背景資訊

這次的洩露事件首先由 Reddit 的用戶發現,他們在 API 和網頁上找到了該模型。Deepseek-v3 的效能已經在多個基準測試中進行了評估,包括 Aider 和 LiveBench。該模型的開源權重已經可以在 Hugging Face 上取得,儘管目前還沒有正式的模型卡。

Deepseek-V3 技術細節

模型架構

  • 參數大小: 6850 億參數
  • MoE 結構: 混合專家架構,包含 256 個專家
  • 路由: 使用 Sigmoid 函數進行路由,選擇前 8 個專家 (Top-k=8)
  • 上下文窗口: 支援 64K 上下文,預設為 4K,最大為 8K
  • Token 生成速度: 約每秒 60 個 token

相較於 V2 的主要架構變更

  • 閘門函數: v3 使用 Sigmoid 函數取代 Softmax 函數進行專家選擇。這使得模型可以從更大的專家集合中選擇,而 Softmax 傾向於偏好少數幾個專家。
  • Top-k 選擇: v3 引入了一種新的 noaux_tc 方法用於 Top-k 選擇,這不需要輔助損失。這簡化了訓練過程,並透過直接使用主任務的損失函數來提高效率。
  • 專家分數調整: 新增了一個參數 e_score_correction_bias 來調整專家分數,這有助於在專家選擇和模型訓練期間實現更好的效能。

與 V2 和 V2.5 的比較

  • v3 vs v2: v3 本質上是 v2 的增強版本,在所有參數上都有顯著的改進。
  • v3 vs v2.5: v3 在配置方面超越了 v2.5,包括更多的專家、更大的中間層大小,以及每個 token 更多的專家。

使用者測試與觀察

初步測試

開發者 Simon Willison 測試了 Deepseek-v3,發現它將自己識別為基於 OpenAI 的 GPT-4 架構。該模型還進行了圖像生成測試,創建了一個鵜鶘騎自行車的 SVG 圖像。

意外的自我識別

多位用戶報告稱,Deepseek-v3 將自己識別為基於 OpenAI 模型,這可能是因為在訓練期間使用了 OpenAI 模型的響應。

社群反應

Deepseek-v3 的意外發布和強勁效能引起了社群的興奮。一些用戶認為 Deepseek-v3 的效能超越了 OpenAI 的模型,尤其是在開源領域。

Deepseek-v3 的技術突破

Deepseek-v3 的核心優勢在於其創新的 MoE 架構和改進的專家選擇機制。相較於傳統的單一模型,MoE 允許模型在不同任務上啟用不同的專家,從而提高效能和效率。

Sigmoid 閘門函數的優勢:

傳統的 Softmax 函數在專家選擇時容易偏向少數幾個專家,導致資源浪費和效能瓶頸。而 Deepseek-v3 使用的 Sigmoid 函數則允許模型更靈活地選擇多個專家,充分利用模型的所有參數。這種方法不僅提高了模型的整體效能,還使其在處理複雜任務時更加高效。

noaux_tc 方法的優勢:

傳統的 Top-k 選擇方法通常需要輔助損失函數來訓練模型,這增加了訓練的複雜性和計算成本。Deepseek-v3 的 noaux_tc 方法則可以直接使用主任務的損失函數進行訓練,簡化了訓練過程,並提高了效率。這種方法不僅降低了訓練成本,還使模型更容易部署和使用。

專家分數調整的重要性:

Deepseek-v3 新增的 e_score_correction_bias 參數允許模型根據不同任務的需求調整專家分數。這種動態調整機制使得模型能夠在不同任務上實現最佳效能,並提高了模型的適應性和泛化能力。

Deepseek-v3 的潛在影響

Deepseek-v3 的出現不僅標誌著開源大型語言模型技術的重大進步,也對整個 AI 領域產生了深遠的影響。

  • 開源 AI 的崛起: Deepseek-v3 的開源權重使得更多的研究人員和開發者可以參與到大型語言模型的開發和應用中,加速了開源 AI 的發展。
  • 挑戰商業模型: Deepseek-v3 的強勁效能挑戰了商業大型語言模型的領先地位,為用戶提供了更多選擇和更具競爭力的解決方案。
  • 降低 AI 門檻: 開源模型的普及降低了 AI 技術的門檻,使得更多企業和個人可以利用 AI 技術來解決實際問題。
  • 促進 AI 創新: Deepseek-v3 的創新架構和技術為研究人員提供了新的思路和方向,將促進 AI 技術的進一步發展。

Deepseek-v3 的應用前景

Deepseek-v3 作為一個強大的開源大型語言模型,具有廣泛的應用前景。

  • 程式碼生成: Deepseek-v3 在程式碼基準測試中的優異表現使其成為程式碼生成和自動化開發的理想工具。它可以幫助開發人員更快速地開發軟體應用,並提高開發效率。
  • 自然語言處理: Deepseek-v3 的強大語言理解和生成能力使其適用於各種自然語言處理任務,例如文本摘要、機器翻譯、問答系統等。
  • 內容創作: Deepseek-v3 可以用於生成各種形式的內容,例如文章、故事、詩歌等,為內容創作者提供了強大的工具。
  • 教育: Deepseek-v3 可以作為一個智能導師,為學生提供個性化的學習體驗,並幫助他們更好地理解知識。
  • 研究: Deepseek-v3 可以作為研究人員的工具,幫助他們進行各種科學研究,並加速科學發現。

社群的熱烈討論

Deepseek-v3 的意外洩露和強勁效能在社群中引發了熱烈的討論。許多開發者和研究人員對 Deepseek-v3 的技術細節和應用前景表示了濃厚的興趣。

一些用戶在 Reddit 和其他論壇上分享了他們對 Deepseek-v3 的測試結果和使用心得。他們認為 Deepseek-v3 的效能超越了許多商業大型語言模型,尤其是在程式碼生成和自然語言處理方面。

總結

Deepseek-v3 的意外洩露為開源大型語言模型領域帶來了新的希望。其創新的架構和強勁的效能不僅挑戰了商業模型的領先地位,也為 AI 技術的發展指明了新的方向。隨著 Deepseek-v3 的普及和應用,我們有理由相信,AI 技術將在未來發揮更大的作用,並為人類社會帶來更多的福祉。

額外資源: