Published on

微軟開源最強小模型 Phi-4:效能卓越,超越 GPT-4o 並可商用

Authors
  • avatar
    Name
    Ajax
    Twitter

微軟開源最強小模型 Phi-4:效能卓越,超越 GPT-4o 並可商用

微軟研究院近日開源了其最新的小參數模型 Phi-4,這款模型以其卓越的效能引起了廣泛關注。Phi-4 的參數量僅為 140 億,但其在多個基準測試中的表現卻令人驚豔,甚至超越了 OpenAI 的 GPT-4o 以及其他同類頂級開源模型,如 Qwen 2.5-14B 和 Llama-3.3-70B。

在更為具體的測試中,Phi-4 在美國數學競賽 AMC 中取得了 91.8 分的優異成績,超過了包括 Gemini Pro 1.5、Claude 3.5 Sonnet 等在內的眾多知名開閉源模型。其整體效能甚至可以與擁有 4050 億參數的 Llama-3.1 相媲美。

此舉引發了社群的強烈反響,此前已有用戶在 Hugging Face 上上傳了盜版的 Phi-4 權重。現在,微軟終於正式開源了 Phi-4,並採用了 MIT 許可證,允許商業用途。 開源地址: phi-4 (請自行替換為實際連結) Hugging Face 官方也對 Phi-4 的開源表示祝賀,足見其影響力。

Phi-4 的關鍵優勢:合成數據與精細訓練

Phi-4 之所以能在如此小的參數下取得如此優異的成績,高品質的合成數據起到了至關重要的作用。與傳統的網路爬取數據相比,合成數據能夠提供更加結構化和逐步的學習材料,幫助模型更高效地學習語言的邏輯與推理過程。

  • 結構化學習: 合成數據可以按照解題步驟逐步呈現,例如在數學問題解答中,這有助於模型更好地理解問題的結構與解題思路。
  • 上下文對齊: 合成數據能夠更好地與模型的推理上下文對齊,更接近實際應用中模型需要生成的輸出格式,從而使模型在預訓練階段就適應實際應用場景的需求。例如,將網路論壇中的事實資訊改寫成類似大模型互動的風格,使得這些資訊在模型生成的對話中更加自然、合理。

Phi-4 的合成數據生成遵循以下原則:

  1. 多樣性
  2. 細膩性與複雜性
  3. 準確性
  4. 推理鏈

這些原則確保了合成數據的品質,並涵蓋了 50 多種不同類型的合成數據集。微軟透過多階段提示流程、種子策劃、改寫與增強、自我修訂等多種方法,生成了約 4000 億個未加權的 tokens。

除了合成數據,Phi-4 還對有機數據進行了嚴格的篩選與過濾,從網路內容、授權書籍和程式碼庫等多渠道收集數據,並透過兩階段過濾過程,提取出具有高教育價值和推理深度的種子數據。這些種子數據為合成數據的生成提供了基礎,同時也直接用於預訓練,進一步豐富了模型的知識儲備。

在篩選過程中,微軟採用了基於小分類器的過濾方法,從大規模網路數據中挑選出高品質的文件,並針對多語言數據進行了專門的處理,確保模型能夠處理包括德語、西班牙語、法語、葡萄牙語、義大利語、印地語和日語在內的多種語言。

Phi-4 的訓練過程

Phi-4 的預訓練主要使用合成數據,同時輔以少量高品質的有機數據。這種數據混合策略使得模型在學習推理和問題解決能力的同時,也能夠吸收豐富的知識內容。

在中期訓練階段,Phi-4 將上下文長度從 4096 擴展到 16384,以提高模型對長文本的處理能力。這包括從高品質非合成數據集中篩選出的長於 8K 上下文的樣本,以及新創建的滿足 4K 序列要求的合成數據集。

後訓練階段是 Phi-4 優化的關鍵,微軟採用了監督微調(SFT)和直接偏好優化(DPO)技術。

  • SFT 階段: 使用來自不同領域的高品質數據生成的約 8B tokens 對預訓練模型進行微調,學習率為 10-6,並添加了 40 種語言的多語言數據,所有數據均採用 chatml 格式。
  • DPO 技術: 透過生成偏好數據來調整模型的輸出,使其更符合人類偏好。微軟還引入了關鍵 tokens 搜尋(PTS)技術來生成 DPO 對,該技術能夠識別對模型回答正確性有重大影響的關鍵 tokens,並針對這些 tokens 創建偏好數據,從而提高模型在推理任務中的效能。

Phi-4 的效能評估

為了評估 Phi-4 的效能,微軟在多個基準測試上進行了測試。在學術基準測試方面,如 MMLU、GPQA、MATH、HumanEval 等,Phi-4 表現出色。

在 MMLU 測試中,Phi-4 取得了 84.8 的高分,在 GPQA 和 MATH 測試中,甚至超越了 GPT-4o,在數學競賽相關的任務中展現出強大的推理能力。與其他類似規模和更大規模的模型比較中,Phi-4 在 12 個基準測試中的 9 個上優於同類開源模型 Qwen-2.5-14B-Instruct。