Published on

OpenAI模型参数泄露:微软论文揭示GPT-4o规模

作者
  • avatar
    姓名
    Ajax
    Twitter

大型语言模型参数的秘密曝光

在科技界,大型语言模型(LLM)的参数规模一直被视为高度机密。然而,最近一篇由微软和华盛顿大学团队合作发表的医学论文,意外地揭示了OpenAI多个模型的参数信息,引起了广泛关注。这次泄露事件犹如一颗重磅炸弹,在人工智能领域掀起了波澜,让人们对这些顶级模型的内部构造有了更深入的了解。

参数曝光:OpenAI模型的规模揭秘

这篇论文中透露的关键信息包括:

  • GPT-4: 约1.76万亿参数
  • GPT-4o: 约2000亿参数
  • GPT-4o mini: 约80亿参数
  • o1-preview: 约3000亿参数
  • o1-mini: 约1000亿参数
  • Claude 3.5 Sonnet: 约1750亿参数

值得注意的是,研究人员声明这些参数均为估算值,并非精确数值。尽管如此,这些数字仍然为我们提供了一个了解这些模型规模的窗口。

GPT-4o系列参数引发热议

令人惊讶的是,GPT-4o系列的参数量远低于预期,特别是mini版本仅有80亿参数。这与之前人们对大型语言模型参数规模的认知形成了鲜明对比。有网友推测,GPT-4o mini可能采用了混合专家模型(MoE)架构,实际激活参数为80亿,但模型整体参数可能达到400亿。这种架构能够让小型模型学习更多知识,同时保持运行速度,这无疑是一种高效的模型设计策略。

Claude 3.5 Sonnet参数对比

此外,有评论指出,Claude 3.5 Sonnet的参数量与GPT-3 davinci相当,这引发了人们对不同模型性能与规模之间关系的进一步思考。参数规模并非衡量模型性能的唯一标准,模型的架构、训练数据以及优化方法等因素都会对模型的最终表现产生重要影响。

MEDEC基准:医疗错误检测的新标准

这篇泄露参数的论文,实际上是关于一个名为MEDEC1的评估基准,旨在评估大型语言模型在医疗错误检测和纠正任务中的表现。该基准专注于临床笔记中的错误,涵盖了诊断、管理、治疗、药物治疗和致病因子等五个方面。

数据来源与特点

MEDEC数据集包含来自三家美国医院系统的488篇临床笔记,总计3848篇临床文本。这些数据此前未被任何大型语言模型接触过,确保了评估的真实性和可靠性。目前,该数据集已被用于MEDIQA-CORR共享任务,以评估17个参与系统的表现。这表明MEDEC基准在医疗领域具有重要的应用价值。

测试与结果

研究团队利用MEDEC数据集对多种先进模型进行了测试,包括o1-preview、GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Flash等。同时,他们还邀请了两位专业医生参与相同的错误检测任务,进行人机对比。结果显示,虽然大型语言模型在医疗错误检测和纠正方面表现出色,但与人类医生相比仍存在差距。这表明MEDEC是一个具有挑战性的评估基准,也反映了当前人工智能在医疗领域应用的局限性。

医疗领域LLM的应用与挑战

论文指出,美国医疗机构的调查显示,每五位阅读临床笔记的患者中,就有一位报告发现了错误。这些错误中,40%被认为比较严重,最常见的是与诊断相关的错误。这突显了在医疗领域应用大型语言模型的必要性和紧迫性。

LLM在医学文档中的应用与风险

随着越来越多的医学文档任务(如临床笔记生成)由大型语言模型完成,如何确保LLM输出信息的准确性和安全性至关重要。LLM可能产生幻觉,输出错误或虚构内容,这会对临床决策产生严重影响。因此,我们需要对LLM在医疗领域的应用保持警惕,并采取相应的风险控制措施。

MEDEC基准的意义

为了解决这些问题,并确保LLM在医学内容生成中的安全性,严格的验证方法必不可少。MEDEC基准的引入旨在评估模型在检测和纠正临床文本中的医学错误方面的能力,为医疗领域LLM的可靠应用提供了重要的保障。

MEDEC数据集的构建

MEDEC数据集包含3848篇来自不同医学领域的临床文本,由8位医学标注员完成标注。该数据集涵盖了五种类型的错误:

  1. 诊断(Diagnosis): 提供的诊断不准确。
  2. 管理(Management): 提供的管理下一步措施不准确。
  3. 药物治疗(Pharmacotherapy): 推荐的药物治疗不准确。
  4. 治疗(Treatment): 推荐的治疗方案不准确。
  5. 致病因子(Causal Organism): 指出的致病生物或致病病原体不准确。

这些错误类型的选择基于医学委员会考试中最常见的问题类型,确保了数据集的全面性和代表性。

数据创建方法

数据集的构建采用了两种方法:

  • 方法#1(MS): 利用MedQA集合中的医学委员会考试题目,由医学背景的标注员将错误答案注入场景文本中。
  • 方法#2(UW): 使用华盛顿大学三家医院系统的真实临床笔记数据库,医学学生团队手动向记录中引入错误。

两种方法均经过严格的质量控制,确保了数据的准确性和可靠性。这为研究人员提供了高质量的数据,用于评估和改进大型语言模型在医疗领域的应用。

医疗错误检测与纠正方法

为了评估模型在医疗错误检测与纠正任务中的表现,研究人员将该过程划分为三个子任务:

  1. 子任务 A: 预测错误标志(0:无错误;1:有错误)。
  2. 子任务 B: 提取包含错误的句子。
  3. 子任务 C: 为包含错误的句子生成修正内容。

研究团队基于LLM构建了解决方案,并使用了两种不同的提示词来生成所需输出。这种细致的任务分解有助于更深入地了解模型在不同方面的表现。

实验与结果

语言模型

研究人员对包括Phi-3-7B、Claude 3.5 Sonnet、Gemini 2.0 Flash、ChatGPT、GPT-4、GPT-4o、o1-mini和o1-preview等多种语言模型进行了实验。实验结果分析表明,不同的模型在医疗错误检测和纠正方面表现出不同的优势和劣势。

实验结果分析

实验结果显示,Claude 3.5 Sonnet在错误标志检测和错误句子检测方面表现出色。o1-preview在错误纠正方面表现最佳。然而,所有模型在医疗错误检测和纠正方面仍不及人类医生。这表明,尽管大型语言模型在医疗领域取得了显著进展,但仍然存在很大的提升空间。

结果还表明,模型在精确度方面存在问题,并且在许多情况下过度预测了错误的存在(即产生幻觉)。此外,分类性能与错误纠正生成性能之间存在排名差异。这说明,在医疗领域应用大型语言模型,需要更加关注模型的准确性和可靠性。

错误类型分析

在不同错误类型的检测和纠正方面,o1-preview在错误标志和句子检测中召回率较高,但医生在准确率上表现更佳。这进一步说明,大型语言模型在医疗领域还需要不断地改进和优化。

后续研究方向

研究人员表示,下一步的研究方向包括在提示词中引入更多示例并进行优化,以进一步提升模型在医疗错误检测和纠正方面的表现。这为未来的研究提供了明确的方向,也预示着大型语言模型在医疗领域的应用前景将更加广阔。