- Published on
史丹佛研究揭示ChatGPT效能下降
GPT效能的起伏
史丹佛大學和加州大學柏克萊分校的研究人員在《哈佛數據科學評論》上發表了一篇名為「ChatGPT Behavior Over Time」的論文,揭示了 GPT-3.5 和 GPT-4 在三個月期間效能和行為的顯著波動。這項研究檢視了這些模型在七項任務中的表現,包括數學問題解決、程式碼生成、多跳知識密集型問答、美國醫師執照考試以及視覺推理。
研究指出,GPT-3.5 和 GPT-4 的效能在三個月內出現了顯著變化。具體來說,GPT-4 在識別質數與合數方面的準確度從三月的 84% 大幅下降至六月的 51%。這種下降部分歸因於其遵循「思維鏈」提示的能力減弱。有趣的是,GPT-3.5 在同一時期內在這項特定任務中有所改進。
其他值得注意的變化包括:
- GPT-4 在六月份回答敏感問題和意見調查的意願有所降低。
- GPT-4 在解決多步驟推理問題的能力有所提高,而 GPT-3.5 在這類任務中表現下降。
- 兩種模型的程式碼生成格式錯誤增加。
- GPT-4 遵循使用者指示的能力下降。
評估方法
研究人員根據多樣性和代表性的原則評估了 GPT-3.5 和 GPT-4。測試在七個主要領域進行:
- 數學問題
- 敏感/危險議題
- 意見調查
- 多跳知識密集型問題
- 程式碼生成
- 美國醫師執照考試
- 視覺推理
為了更好地理解行為變化,研究團隊開發了一種新的基準測試,重點關注獨立於任務的指令遵循。此基準測試包含四種類型的常見指令:答案提取、停止道歉、避免特定詞語和內容過濾。
指令遵循
這一系列的測試旨在評估模型獨立於特定技能或知識遵循指令的能力。在三月份,GPT-4 能夠很好地遵循大多數單獨的指令,但到了六月份,它開始無視這些指令。例如,答案提取指令的遵守率從 99.5% 下降到幾乎為零。內容過濾指令的準確性也從 74.0% 下降到 19.0%。
效能指標
為了準確捕捉模型的效能,研究團隊為每項任務建立了主要和輔助效能指標。例如:
- 準確度被用作數學問題和美國醫師執照考試的主要指標。
- 可執行輸出程式碼的比例是程式碼生成的主要指標。
ChatGPT 在四種指令類型中的表現
答案提取
此指令要求模型準確定位並明確識別給定文本或問題中的答案。GPT-4 在三月份對此類指令表現出高度的遵守度,近 99.5% 的查詢收到了格式正確的答案。然而,到了六月份,這個比率直線下降,表明模型處理明確指令格式的能力下降。
停止道歉
此指令測試模型在明確要求不使用道歉或自我識別為 AI 時避免使用道歉或自我識別為 AI 的能力。在三月份,GPT-4 通常會遵循此指令,但到了六月份,即使在明確指示的情況下,它也經常違反此指令。
避免特定詞語
此指令檢查模型的靈活性和對細節的關注,尤其是在遵守特定約束方面。從三月到六月的下降表明 GPT-4 處理複雜指令的能力有所下降。
內容過濾
此指令要求模型排除特定主題或敏感資訊。在三月份,GPT-4 大致遵守了這些過濾要求,但到了六月份,其過濾能力顯著下降,只有約 19% 的敏感問題得到正確處理。
研究的影響
研究人員指出,由於 GPT-3.5 和 GPT-4 是閉源模型,OpenAI 不會披露其訓練數據和流程。這種缺乏透明度意味著使用者通常不知道每次重大更新會發生哪些變化。這項研究可以幫助開發人員和使用者了解 ChatGPT 的效能和行為動態,這對於確保模型的安全性和內容真實性至關重要。該研究突顯了在快速發展的環境中維持這些模型的一致性和可靠性的挑戰。