- Published on
Deepseek V3 意外泄露:编程基准测试超越 Claude 3.5 Sonnet
Deepseek V3 模型意外泄露:编程基准测试超越 Claude 3.5 Sonnet
Deepseek-v3,一个未发布的模型,在意外泄露后展现出惊人的性能。它在 Aider 多语言编程基准测试中超越了 Claude 3.5 Sonnet,并且目前是 LiveBench 评估平台上最强大的开源 LLM。该模型的架构采用了 6850 亿参数的 MoE(混合专家)结构,相较于之前的版本有了显著的改进。
背景信息
这次泄露事件最初由 Reddit 用户报告,他们发现该模型已在 API 和网页上可用。Deepseek-v3 的性能已经在多个基准测试中进行了评估,包括 Aider 和 LiveBench。尽管目前还没有模型卡,但该模型的开源权重已经在 Hugging Face 上提供。
Deepseek-V3 技术细节
模型架构
- 参数规模: 6850 亿参数
- MoE 结构: 混合专家架构,包含 256 个专家
- 路由: 使用 Sigmoid 函数进行路由,选择前 8 个专家 (Top-k=8)
- 上下文窗口: 支持 64K 上下文,默认 4K,最大 8K
- 令牌生成速度: 约每秒 60 个令牌
与 V2 相比的关键架构变化
- 门控函数: v3 使用 Sigmoid 函数代替 Softmax 进行专家选择。这使得模型可以从更大的专家集合中选择,而 Softmax 倾向于偏爱少数几个专家。
- Top-k 选择: v3 引入了一种新的 noaux_tc 方法进行 Top-k 选择,该方法不需要辅助损失。这简化了训练过程,并通过直接使用主要任务的损失函数提高了效率。
- 专家评分调整: 添加了一个新的参数 e_score_correction_bias 来调整专家评分,从而在专家选择和模型训练期间获得更好的性能。
与 V2 和 V2.5 的比较
- v3 vs v2: v3 本质上是 v2 的增强版本,在所有参数上都有显著改进。
- v3 vs v2.5: v3 在配置方面超越了 v2.5,包括更多的专家、更大的中间层大小以及每个令牌更多的专家。
用户测试和观察
初步测试
开发者 Simon Willison 测试了 Deepseek-v3,发现它将自己识别为基于 OpenAI 的 GPT-4 架构。该模型还进行了图像生成测试,创建了一个鹈鹕骑自行车的 SVG 图像。
意外的自我识别
多位用户报告说,Deepseek-v3 将自己识别为基于 OpenAI 模型,这可能是由于在训练期间使用了 OpenAI 模型响应。
社区反应
Deepseek-v3 的意外发布和强大性能在社区中引起了兴奋。一些用户认为,Deepseek-v3 的性能超越了 OpenAI 的模型,尤其是在开源领域。
深入解析 Deepseek-v3 的技术优势
Deepseek-v3 的成功不仅仅在于其庞大的参数规模,更在于其在架构上的创新。MoE 结构允许模型在处理不同任务时激活不同的专家,从而提高效率和性能。Sigmoid 函数的使用使得专家选择更加灵活,避免了 Softmax 函数可能导致的专家选择偏好。noaux_tc 方法简化了训练过程,并直接利用主要任务的损失函数进行优化,进一步提升了模型的训练效率。
此外,e_score_correction_bias 参数的引入,使得模型在专家选择时能够更加精准,从而提高了整体性能。这些技术细节的改进,使得 Deepseek-v3 在编程基准测试中能够超越 Claude 3.5 Sonnet,并成为开源 LLM 中的佼佼者。
Deepseek-v3 的实际应用潜力
Deepseek-v3 的强大性能使其在多个领域具有广泛的应用潜力。在编程领域,它可以用于代码生成、代码补全、代码调试等任务,从而提高开发效率。在自然语言处理领域,它可以用于文本生成、文本摘要、机器翻译等任务,从而提升语言处理能力。此外,Deepseek-v3 还可以应用于图像生成、数据分析等领域,为各行各业带来新的机遇。
开源的意义
Deepseek-v3 的开源发布,对于整个 AI 社区来说具有重要的意义。它不仅为研究人员提供了新的研究平台,也为开发者提供了新的工具。开源的模式可以促进技术的快速发展和广泛应用,从而推动整个 AI 领域的进步。
社区的期待
Deepseek-v3 的出现,无疑给开源 LLM 领域注入了新的活力。社区对 Deepseek-v3 的未来发展充满期待,希望它能够在更多的基准测试中取得优异的成绩,并在实际应用中发挥更大的作用。同时,社区也期待 Deepseek 团队能够继续创新,推出更多更强大的开源模型。
进一步探索
Deepseek-v3 的泄露事件,也引发了人们对于模型安全和发布的思考。如何在保证模型安全的前提下,更好地促进技术的开放和共享,是未来需要进一步探讨的问题。
总结
Deepseek-v3 的意外泄露,无疑是 AI 领域的一个重要事件。它的强大性能和开源特性,将对整个 AI 社区产生深远的影响。我们期待 Deepseek-v3 在未来能够取得更大的成就,并为人类社会带来更多的福祉。