- Published on
揭秘OpenAI模型參數:微軟論文意外曝光,GPT-4o參數量遠低於預期
揭秘OpenAI模型參數:微軟論文意外曝光
在科技界,大型語言模型(LLM)的參數規模一直是高度保密的。然而,最近一篇由微軟和華盛頓大學團隊合作發表的醫學論文,意外地揭示了OpenAI多個模型的參數信息,引起了廣泛關注。
參數曝光
這篇論文中透露的關鍵信息包括:
- GPT-4: 約1.76萬億參數
- GPT-4o: 約2000億參數
- GPT-4o mini: 約80億參數
- o1-preview: 約3000億參數
- o1-mini: 約1000億參數
- Claude 3.5 Sonnet: 約1750億參數
值得注意的是,研究人員聲明這些參數均為估算值。
GPT-4o系列參數引發熱議
令人驚訝的是,GPT-4o系列的參數量遠低於預期,特別是mini版本僅有80億參數。有網友推測,GPT-4o mini可能採用了混合專家模型(MoE)架構,實際激活參數為80億,但模型整體參數可能達到400億。這種架構能夠讓小型模型學習更多知識,同時保持運行速度。
Claude 3.5 Sonnet參數對比
此外,有評論指出,Claude 3.5 Sonnet的參數量與GPT-3 davinci相當,這引發了人們對不同模型性能與規模之間關係的進一步思考。
MEDEC基準:醫療錯誤檢測的新標準
這篇洩露參數的論文,實際上是關於一個名為MEDEC1的評估基準,旨在評估大型語言模型在醫療錯誤檢測和糾正任務中的表現。該基準專注於臨床筆記中的錯誤,涵蓋了診斷、管理、治療、藥物治療和致病因子等五個方面。
數據來源與特點
MEDEC數據集包含來自三家美國醫院系統的488篇臨床筆記,總計3848篇臨床文本。這些數據此前未被任何大型語言模型接觸過,確保了評估的真實性和可靠性。目前,該數據集已被用於MEDIQA-CORR共享任務,以評估17個參與系統的表現。
測試與結果
研究團隊利用MEDEC數據集對多種先進模型進行了測試,包括o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash等。同時,他們還邀請了兩位專業醫生參與相同的錯誤檢測任務,進行人機對比。結果顯示,雖然大型語言模型在醫療錯誤檢測和糾正方面表現出色,但與人類醫生相比仍存在差距。這表明MEDEC是一個具有挑戰性的評估基準。
論文核心內容:醫療領域LLM的應用與挑戰
論文指出,美國醫療機構的調查顯示,每五位閱讀臨床筆記的患者中,就有一位報告發現了錯誤。這些錯誤中,40%被認為比較嚴重,最常見的是與診斷相關的錯誤。
LLM在醫學文檔中的應用與風險
隨著越來越多的醫學文檔任務(如臨床筆記生成)由大型語言模型完成,如何確保LLM輸出信息的準確性和安全性至關重要。LLM可能產生幻覺,輸出錯誤或虛構內容,這會對臨床決策產生嚴重影響。
MEDEC基準的意義
為了解決這些問題,並確保LLM在醫學內容生成中的安全性,嚴格的驗證方法必不可少。MEDEC基準的引入旨在評估模型在檢測和糾正臨床文本中的醫學錯誤方面的能力。
MEDEC數據集的構建
MEDEC數據集包含3848篇來自不同醫學領域的臨床文本,由8位醫學標註員完成標註。該數據集涵蓋了五種類型的錯誤:
- 診斷(Diagnosis): 提供的診斷不準確。
- 管理(Management): 提供的管理下一步措施不準確。
- 藥物治療(Pharmacotherapy): 推薦的藥物治療不準確。
- 治療(Treatment): 推薦的治療方案不準確。
- 致病因子(Causal Organism): 指出的致病生物或致病病原體不準確。
這些錯誤類型的選擇基於醫學委員會考試中最常見的問題類型。
數據創建方法
數據集的構建採用了兩種方法:
- 方法#1(MS): 利用MedQA集合中的醫學委員會考試題目,由醫學背景的標註員將錯誤答案注入場景文本中。
- 方法#2(UW): 使用華盛頓大學三家醫院系統的真實臨床筆記數據庫,醫學生團隊手動向記錄中引入錯誤。
兩種方法均經過嚴格的質量控制,確保了數據的準確性和可靠性。
醫療錯誤檢測與糾正方法
為了評估模型在醫療錯誤檢測與糾正任務中的表現,研究人員將該過程劃分為三個子任務:
- 子任務 A: 預測錯誤標誌(0:無錯誤;1:有錯誤)。
- 子任務 B: 提取包含錯誤的句子。
- 子任務 C: 為包含錯誤的句子生成修正內容。
研究團隊基於LLM構建了解決方案,並使用了兩種不同的提示詞來生成所需輸出。
實驗與結果
語言模型
研究人員對包括Phi-3-7B、Claude 3.5 Sonnet、Gemini 2.0 Flash、ChatGPT、GPT-4、GPT-4o、o1-mini和o1-preview等多種語言模型進行了實驗。
實驗結果分析
實驗結果顯示,Claude 3.5 Sonnet在錯誤標誌檢測和錯誤句子檢測方面表現出色。o1-preview在錯誤糾正方面表現最佳。然而,所有模型在醫療錯誤檢測和糾正方面仍不及人類醫生。結果還表明,模型在精確度方面存在問題,並且在許多情況下過度預測了錯誤的存在(即產生幻覺)。此外,分類性能與錯誤糾正生成性能之間存在排名差異。
錯誤類型分析
在不同錯誤類型的檢測和糾正方面,o1-preview在錯誤標誌和句子檢測中召回率較高,但醫生在準確率上表現更佳。
後續研究方向
研究人員表示,下一步的研究方向包括在提示詞中引入更多示例並進行優化,以進一步提升模型在醫療錯誤檢測和糾正方面的表現。