Published on

DeepSeek V3:突破性的开源模型

作者
  • avatar
    姓名
    Ajax
    Twitter

DeepSeek V3:一个突破性的开源模型

DeepSeek V3,一个拥有6710亿参数的混合专家(MoE)模型,以开源形式发布,在人工智能社区引起了巨大反响。该模型在14.8万亿高质量tokens上进行了训练,并且在推理过程中仅激活了370亿参数。

性能卓越

DeepSeek V3 在开源模型中实现了最先进的(SOTA)性能,超越了 Llama 3.1 405B,并且可以与 GPT-4o 和 Claude 3.5 Sonnet 等顶尖模型相媲美。这标志着开源大型语言模型领域的一个重要进步。

成本效益显著

与 Claude 3.5 模型相比,DeepSeek V3 的成本明显更低,仅为 Claude 3.5 Sonnet 的 9%。这种成本效益的实现,得益于其优化的算法、框架和硬件。DeepSeek V3 的训练耗时不到 280 万 GPU 小时,与 Llama 3 405B 的 3080 万 GPU 小时形成了鲜明对比。DeepSeek V3 的总训练成本约为 557.6 万美元,而训练一个 7B 的 Llama 2 模型则需要 76 万美元。OpenAI 的创始成员 Karpathy 指出,DeepSeek V3 以明显更少的资源实现了可比的性能,突显了数据和算法优化的潜力。

业界赞誉

DeepSeek V3 获得了贾扬清和 Meta 的田云栋等人工智能专家的赞誉。在各种基准测试中,它都优于其他开源模型,如 Qwen2.5-72B 和 Llama-3.1-405B。该模型的性能可以与 GPT-4o 和 Claude-3.5-Sonnet 等顶级闭源模型相媲美。DeepSeek V3 的 token 生成速度为每秒 60 个,速度提高了 3 倍。API 定价也极具竞争力,输入 token 的成本为每百万 0.5-2 元人民币,输出 token 的成本为每百万 8 元人民币。Kagi 的评估将 DeepSeek V3 置于开源模型的顶端,紧随 Sonnet-3.5 和 GPT-4o 之后。

社区参与

该模型可在官方平台上进行测试,代码已开源供下载。人工智能爱好者一直在尝试 DeepSeek V3,包括在堆叠的 Mac Mini 上运行它。开发人员对该模型无需明确解释就能理解复杂指令的能力感到惊讶。一位开发人员在很短的时间内使用 DeepSeek V3 创建了一个带有 AI 公司徽标的游戏。运行 DeepSeek V3 的低成本也得到了强调,一位用户指出,以每秒 60 个 token 的速度运行它每天只需 2 美元。

训练细节

DeepSeek V3 的训练通过算法、框架和硬件的改进进行了优化。该模型在 18 万 GPU 小时内训练了 1 万亿个 token,在不到两个月的时间内完成了预训练。总训练成本为 278.8 万 GPU 小时,或 557.6 万美元。关键优化包括:

  • 负载均衡:一种新的负载均衡策略,为 MoE 架构中的每个专家设置了偏差项。
  • 多 Token 预测(MTP):一种训练目标,通过推测性解码提高模型性能并加快推理速度。
  • FP8 训练:使用 FP8 混合精度训练,证明了其在大规模模型中的可行性。
  • DualPipe:一种高效的流水线并行算法,可重叠计算和通信,从而减少通信开销。

MoE 架构由 256 个路由专家和 1 个共享专家组成,每个 token 激活 8 个专家并发送到最多 4 个节点。部署冗余专家以平衡推理期间的负载。该模型的推理能力通过从长链模型(DeepSeek R1)中提取知识得到增强。

实验结果

DeepSeek V3 在各种基准测试中实现了开源模型中最先进的性能。该模型在“大海捞针”实验中表现良好,证明了其从长上下文中检索特定信息的能力。

资源