- Published on
斯坦福研究揭示ChatGPT性能下降
ChatGPT性能随时间变化的斯坦福研究
最近,斯坦福大学和加州大学伯克利分校的研究人员在《哈佛数据科学评论》上发表了一篇名为“ChatGPT Behavior Over Time”的论文,揭示了GPT-3.5和GPT-4在三个月内的性能和行为出现显著波动。这项研究考察了这些模型在七个任务中的表现,包括:
- 数学问题解决
- 代码生成
- 多跳知识密集型问题回答
- 美国医师执照考试
- 多跳知识密集型问题回答
性能波动
研究表明,GPT-3.5和GPT-4的性能在三个月内都出现了显著变化。具体来说,GPT-4在识别质数与合数方面的准确率从3月份的84%急剧下降到6月份的51%。这种下降部分归因于其遵循“思维链”提示的能力减弱。有趣的是,GPT-3.5在同一时期内在这项特定任务上的表现有所提高。
其他值得注意的变化包括:
- GPT-4在6月份回答敏感问题和意见调查的意愿下降。
- GPT-4解决多步骤推理问题的能力有所提高,而GPT-3.5在这方面则有所下降。
- 两个模型在代码生成方面的格式错误增加。
- GPT-4遵循用户指令的能力下降。
评估方法
研究人员基于多样性和代表性的原则评估了GPT-3.5和GPT-4。测试涵盖了七个主要领域:
- 数学问题
- 敏感/危险问题
- 意见调查
- 多跳知识密集型问题
- 代码生成
- 美国医师执照考试
- 视觉推理
为了更好地理解行为变化,该团队开发了一个新的基准,专注于与任务无关的指令遵循。这个基准包括四种常见的指令类型:答案提取、停止道歉、避免特定词语和内容过滤。
指令遵循
这一系列的测试旨在评估模型独立于特定技能或知识而遵循指令的能力。3月份,GPT-4能够很好地遵循大多数单独的指令,但到了6月份,它开始忽视这些指令。例如,答案提取指令的依从率从99.5%下降到几乎为零。内容过滤指令的保真度也从74.0%下降到19.0%。
性能指标
为了准确捕捉模型的性能,该团队为每个任务建立了主要和补充性能指标。例如:
- 准确率被用作数学问题和美国医师执照考试的主要指标。
- 可执行输出代码的比例是代码生成的主要指标。
ChatGPT在四种指令类型中的表现
答案提取
此指令要求模型准确地定位并明确识别给定文本或问题中的答案。GPT-4在3月份对此类指令表现出高度的依从性,近99.5%的查询收到了格式正确的答案。然而,到了6月份,这一比率骤降,表明模型处理清晰指令格式的能力下降。
停止道歉
此指令测试模型在明确要求不要道歉或自我识别为AI时的能力。3月份,GPT-4通常遵循此指令,但到了6月份,即使在明确指示的情况下,它也经常违反此指令。
避免特定词语
此指令检查模型的灵活性和对细节的关注,尤其是在遵守特定约束方面。从3月到6月的下降表明,GPT-4处理复杂指令的能力有所下降。
内容过滤
此指令要求模型排除特定主题或敏感信息。3月份,GPT-4在很大程度上遵守了这些过滤要求,但到了6月份,其过滤能力显著下降,只有约19%的敏感问题得到了正确处理。
研究的意义
研究人员指出,由于GPT-3.5和GPT-4是闭源模型,OpenAI不会披露其训练数据和过程。这种缺乏透明度意味着用户通常不知道每次重大更新会发生的变化。这项研究可以帮助开发人员和用户了解ChatGPT的性能和行为动态,这对于确保模型的安全性和内容真实性至关重要。该研究强调了在快速发展的环境中维持这些模型的一致性和可靠性的挑战。