- Published on
微软开源最强小模型 Phi-4:性能卓越,超越 GPT-4o,并可商用
微软开源最强小模型 Phi-4:性能卓越,超越 GPT-4o,并可商用
微软研究院近日开源了其最新的小参数模型 Phi-4,这款模型以其卓越的性能引起了广泛关注。Phi-4 的参数量仅为 140 亿,但其在多个基准测试中的表现却令人惊艳,甚至超越了 OpenAI 的 GPT-4o 以及其他同类顶级开源模型,如 Qwen 2.5-14B 和 Llama-3.3-70B。
在更为具体的测试中,Phi-4 在美国数学竞赛 AMC 中取得了 91.8 分的优异成绩,超过了包括 Gemini Pro 1.5、Claude 3.5 Sonnet 等在内的众多知名开闭源模型。其整体性能甚至可以与拥有 4050 亿参数的 Llama-3.1 相媲美。
此举引发了社区的强烈反响,此前已有用户在 Hugging Face 上上传了盗版的 Phi-4 权重。现在,微软终于正式开源了 Phi-4,并采用了 MIT 许可证,允许商业用途。
开源地址: phi-4
Hugging Face 官方也对 Phi-4 的开源表示祝贺,足见其影响力。
Phi-4 的关键优势:合成数据与精细训练
Phi-4 之所以能在如此小的参数下取得如此优异的成绩,高质量的合成数据起到了至关重要的作用。与传统的网络爬取数据相比,合成数据能够提供更加结构化和逐步的学习材料,帮助模型更高效地学习语言的逻辑与推理过程。
- 结构化学习: 合成数据可以按照解题步骤逐步呈现,例如在数学问题解答中,这有助于模型更好地理解问题的结构与解题思路。
- 上下文对齐: 合成数据能够更好地与模型的推理上下文对齐,更接近实际应用中模型需要生成的输出格式,从而使模型在预训练阶段就适应实际应用场景的需求。例如,将网络论坛中的事实信息改写成类似大模型交互的风格,使得这些信息在模型生成的对话中更加自然、合理。
Phi-4 的合成数据生成遵循以下原则:
- 多样性
- 细腻性与复杂性
- 准确性
- 推理链
这些原则确保了合成数据的质量,并涵盖了 50 多种不同类型的合成数据集。微软通过多阶段提示流程、种子策划、改写与增强、自我修订等多种方法,生成了约 4000 亿个未加权的 tokens。
除了合成数据,Phi-4 还对有机数据进行了严格的筛选与过滤,从网络内容、授权书籍和代码库等多渠道收集数据,并通过两阶段过滤过程,提取出具有高教育价值和推理深度的种子数据。这些种子数据为合成数据的生成提供了基础,同时也直接用于预训练,进一步丰富了模型的知识储备。
在筛选过程中,微软采用了基于小分类器的过滤方法,从大规模网络数据中挑选出高质量的文档,并针对多语言数据进行了专门的处理,确保模型能够处理包括德语、西班牙语、法语、葡萄牙语、意大利语、印地语和日语在内的多种语言。
Phi-4 的训练过程
Phi-4 的预训练主要使用合成数据,同时辅以少量高质量的有机数据。这种数据混合策略使得模型在学习推理和问题解决能力的同时,也能够吸收丰富的知识内容。
在中期训练阶段,Phi-4 将上下文长度从 4096 扩展到 16384,以提高模型对长文本的处理能力。这包括从高质量非合成数据集中筛选出的长于 8K 上下文的样本,以及新创建的满足 4K 序列要求的合成数据集。
后训练阶段是 Phi-4 优化的关键,微软采用了监督微调(SFT)和直接偏好优化(DPO)技术。
- SFT 阶段: 使用来自不同领域的高质量数据生成的约 8B tokens 对预训练模型进行微调,学习率为 10-6,并添加了 40 种语言的多语言数据,所有数据均采用 chatml 格式。
- DPO 技术: 通过生成偏好数据来调整模型的输出,使其更符合人类偏好。微软还引入了关键 tokens 搜索(PTS)技术来生成 DPO 对,该技术能够识别对模型回答正确性有重大影响的关键 tokens,并针对这些 tokens 创建偏好数据,从而提高模型在推理任务中的性能。
Phi-4 的性能评估
为了评估 Phi-4 的性能,微软在多个基准测试上进行了测试。在学术基准测试方面,如 MMLU、GPQA、MATH、HumanEval 等,Phi-4 表现出色。
在 MMLU 测试中,Phi-4 取得了 84.8 的高分,在 GPQA 和 MATH 测试中,甚至超越了 GPT-4o,在数学竞赛相关的任务中展现出强大的推理能力。与其他类似规模和更大规模的模型比较中,Phi-4 在 12 个基准测试中的 9 个上优于同类开源模型 Qwen-2.5-14B-Instruct。
Phi-4的卓越性能不仅体现在其在基准测试中的优异成绩,更在于其在实际应用中的潜力。由于其较小的模型参数和高效的训练方法,Phi-4可以在资源有限的环境下运行,从而降低了AI技术的应用门槛,为更多开发者和企业提供了便利。
- 数学能力: Phi-4 在美国数学竞赛(AMC)中取得了惊人的 91.8 分,显示出其在数学推理方面的卓越能力。这一成绩不仅超过了许多同类模型,甚至超越了一些大型闭源模型,如Gemini Pro 1.5和Claude 3.5 Sonnet。
- 多语言支持: Phi-4 的训练过程中考虑了多语言数据,使其能够处理包括德语、西班牙语、法语、葡萄牙语、意大利语、印地语和日语在内的多种语言,这为全球范围内的应用提供了坚实的基础。
- 高效性: 相较于动辄几千亿参数的大模型,Phi-4 的 140 亿参数使其在计算资源消耗方面更具优势,更易于部署和应用。
- 商业应用潜力: Phi-4 采用 MIT 许可证开源,允许商业用途,这无疑将加速其在各行各业的落地应用。
- 开源社区的积极响应: Hugging Face 官方对 Phi-4 的开源表示祝贺,足见其在开源社区的影响力。这不仅体现了社区对微软开源工作的认可,也预示着 Phi-4 在未来将获得更广泛的关注和支持。
Phi-4的成功,再次证明了高质量数据和精细训练的重要性。合成数据在其中起到了关键的作用,它为模型提供了结构化和逐步的学习材料,帮助模型更好地理解语言的逻辑和推理过程。同时,微软在训练过程中的不断优化,包括扩展上下文长度、使用SFT和DPO技术,都为Phi-4性能的提升做出了重要贡献。
Phi-4的开源,无疑将推动AI技术的发展,并为更多开发者和企业带来新的可能性。