- Published on
中国AI初创公司DeepSeek:以基础研究挑战技术刻板印象
DeepSeek:一家中国技术理想主义者的故事
DeepSeek,一家来自中国的AI初创公司,正以其专注于基础研究和模型架构创新的姿态,在行业内掀起波澜。它不满足于仅仅进行应用开发,而是致力于成为全球技术进步的贡献者,这与人们普遍认为中国只擅长应用创新的观点形成了鲜明对比。DeepSeek的长期愿景是实现通用人工智能(AGI),因此他们将研究置于短期商业利益之上。
背景
DeepSeek起源于量化交易公司High-Flyer,最初因其大规模的AI芯片基础设施而受到关注。最近,该公司因发布DeepSeek V2而成为头条新闻。DeepSeek V2是一款开源模型,其推理成本显著降低,这在中国AI公司之间引发了一场价格战。DeepSeek创新的MLA架构和DeepSeekMoESparse结构,显著降低了内存使用和计算成本。
DeepSeek的独特方法
- 专注于基础研究: 与许多优先考虑应用开发的中国AI公司不同,DeepSeek致力于研究和创新模型架构。他们坚信,真正的突破源于对底层技术的深入探索。
- 拒绝“山寨”模式: DeepSeek积极挑战中国只能跟随和应用现有技术的观点,而是致力于为全球创新做出贡献。他们认为,只有原创性的投入才能推动整个行业进步。
- 长期愿景: DeepSeek的最终目标是实现AGI。这一愿景驱动着他们专注于基础研究和长期发展,而非短期的商业回报。
- 开源承诺: DeepSeek选择以开源方式发布其模型,优先考虑AI生态系统的增长,而不是短期商业利益。他们相信,开放的合作能够加速整个行业的进步。
- 强调团队和文化: DeepSeek认为,其竞争优势在于团队的成长、积累的知识以及创新文化。他们鼓励团队成员自由探索,并不断学习。
关键创新
- MLA(多头潜在注意力)架构: 这种新架构显著降低了内存使用,与传统的MHA架构相比,这是一个巨大的进步。
- DeepSeekMoESparse结构: 这种结构最大限度地降低了计算成本,从而降低了整体推理成本,使得AI模型更加高效。
- 数据构建和类人建模: DeepSeek还致力于改进数据构建,并使模型更像人类,力求让AI模型更加智能和自然。
DeepSeek对AI格局的看法
- 挑战现状: DeepSeek认为,中国需要超越“搭便车”的角色,成为全球技术创新的贡献者。他们希望通过自身的努力,改变世界对中国科技的固有印象。
- 弥合差距: DeepSeek承认中国与西方AI能力之间的差距,特别是在模型结构和训练效率方面,并积极努力弥合这一差距。他们认为,只有正视差距,才能找到进步的方向。
- 超越商业化: DeepSeek认为,创新不仅仅由商业利益驱动,好奇心和创造力同样重要。他们坚信,真正的突破往往来自于对未知的探索。
- 开源的重要性: DeepSeek将开源视为一种文化行为,它促进了协作和创新,而不是一种商业策略。他们认为,开放的文化能够激发更多的创新灵感。
- 原创的价值: DeepSeek强调原创创新而不是模仿的重要性,突出了为全球科技界做出贡献的长期利益。他们坚信,只有原创才能带来长久的价值。
DeepSeek的创始人,梁文峰
- 技术专长: 梁文峰被描述为一位罕见的,同时具备强大的基础设施工程和模型研究能力的杰出人才。他不仅是一位管理者,更是一位技术专家。
- 亲力亲为: 他积极参与研究、编码和团队讨论,而不是仅仅充当管理者。他深入一线,了解每一个细节。
- 理想主义愿景: 梁文峰是一位技术理想主义者,他优先考虑伦理因素而非利润,并强调原创创新的重要性。他认为,技术应该服务于人类,而不是被商业利益所绑架。
- 关注长期影响: 他专注于为AI的进步和整个社会的效率提升做出贡献,追求长远的社会价值,而非短期的个人利益。
DeepSeek的团队和文化
- 人才招聘: DeepSeek专注于招聘那些对研究充满热情和强烈好奇心的人,并且常常选择具有独特背景的候选人。他们认为,多元化的背景能够带来更多创新灵感。
- 自组织团队: DeepSeek提倡自组织团队结构,鼓励个人追求自己的想法并与他人合作。他们相信,自由的环境能够激发更多的创造力。
- 灵活的资源分配: 团队成员可以根据需要自由分配计算能力和人员等资源。他们认为,这种灵活性能够提高工作效率。
- 强调热情: DeepSeek优先考虑对研究的热情而非经济激励,吸引那些渴望解决难题的人。他们认为,真正的驱动力来自于对知识的渴望。
DeepSeek的未来展望
- 没有闭源计划: DeepSeek致力于保持开源,他们认为强大的技术生态系统比短期收益更重要。他们坚信,开源是促进技术进步的最佳方式。
- 没有迫切的资金需求: DeepSeek目前没有寻求资金,因为他们面临的主要挑战是获得高端芯片。他们认为,技术才是核心竞争力,而非资金。
- 专注于基础研究: DeepSeek将继续优先考虑基础研究和创新,而不是应用开发。他们坚信,只有基础研究的突破,才能带来真正的进步。
- 对AGI的长期愿景: DeepSeek对AI的未来持乐观态度,并相信AGI将在他们有生之年实现。他们认为,AGI将是人类文明的又一次飞跃。
- 强调专业化: DeepSeek设想未来将会有专门的公司提供基础模型和服务,允许其他公司在其基础上进行构建。他们认为,专业化分工能够提高整个行业的效率。