- Publié le
Le modèle Phi-4 de Microsoft : une performance exceptionnelle qui surpasse GPT-4o et disponible pour un usage commercial
Le laboratoire de recherche de Microsoft a récemment mis en open source son dernier modèle à petits paramètres, Phi-4, qui a suscité une large attention en raison de ses performances exceptionnelles. Avec seulement 14 milliards de paramètres, Phi-4 a réalisé des performances étonnantes dans plusieurs tests de référence, dépassant même le GPT-4o d'OpenAI et d'autres modèles open source de premier plan tels que Qwen 2.5-14B et Llama-3.3-70B.
Dans des tests plus spécifiques, Phi-4 a obtenu un score exceptionnel de 91,8 au concours mathématique américain AMC, surpassant de nombreux modèles open et closed source bien connus, notamment Gemini Pro 1.5 et Claude 3.5 Sonnet. Ses performances globales sont même comparables à celles du Llama-3.1, qui compte 405 milliards de paramètres.
Cette initiative a suscité une forte réaction de la part de la communauté. Auparavant, des utilisateurs avaient téléchargé des poids Phi-4 piratés sur Hugging Face. Microsoft a maintenant officiellement mis Phi-4 en open source, avec une licence MIT, autorisant son utilisation commerciale.
Adresse de l'open source : phi-4 Hugging Face a également félicité officiellement l'open source de Phi-4, ce qui témoigne de son influence.
Les avantages clés de Phi-4 : données synthétiques et formation affinée
La raison pour laquelle Phi-4 a obtenu d'aussi bons résultats avec si peu de paramètres est que des données synthétiques de haute qualité ont joué un rôle essentiel. Par rapport aux données d'exploration Web traditionnelles, les données synthétiques peuvent fournir des supports d'apprentissage plus structurés et progressifs, aidant le modèle à apprendre plus efficacement la logique et le processus de raisonnement du langage.
- Apprentissage structuré : Les données synthétiques peuvent être présentées étape par étape en fonction des étapes de résolution de problèmes, par exemple dans la résolution de problèmes mathématiques, ce qui aide le modèle à mieux comprendre la structure et les idées de résolution de problèmes.
- Alignement contextuel : Les données synthétiques peuvent être mieux alignées avec le contexte de raisonnement du modèle, plus proches du format de sortie que le modèle doit générer dans les applications réelles, de sorte que le modèle s'adapte aux exigences des scénarios d'application réels pendant la phase de préformation. Par exemple, la réécriture d'informations factuelles provenant de forums Web dans un style similaire à l'interaction de grands modèles rend ces informations plus naturelles et raisonnables dans les dialogues générés par le modèle.
Les données synthétiques de Phi-4 sont générées selon les principes suivants :
- Diversité
- Finesse et complexité
- Précision
- Chaîne de raisonnement
Ces principes garantissent la qualité des données synthétiques et couvrent plus de 50 types différents d'ensembles de données synthétiques. Microsoft a généré environ 400 milliards de jetons non pondérés en utilisant plusieurs méthodes, notamment des processus d'invite en plusieurs étapes, la planification de semences, la réécriture et l'amélioration, et l'auto-révision.
En plus des données synthétiques, Phi-4 a également strictement sélectionné et filtré les données organiques. Les données ont été collectées à partir de plusieurs sources telles que le contenu Web, les livres sous licence et les dépôts de code. Un processus de filtrage en deux étapes a été utilisé pour extraire les données de base avec une valeur éducative élevée et une profondeur de raisonnement. Ces données de base ont servi de base à la génération de données synthétiques et ont également été directement utilisées pour la préformation, enrichissant davantage la base de connaissances du modèle.
Au cours du processus de sélection, Microsoft a utilisé une méthode de filtrage basée sur de petits classificateurs pour sélectionner des documents de haute qualité à partir de données Web à grande échelle et a spécialement traité les données multilingues pour s'assurer que le modèle peut gérer plusieurs langues, notamment l'allemand, l'espagnol, le français, le portugais, l'italien, l'hindi et le japonais.
Le processus de formation de Phi-4
La préformation de Phi-4 utilise principalement des données synthétiques, complétées par une petite quantité de données organiques de haute qualité. Cette stratégie de mélange de données permet au modèle d'absorber un contenu de connaissances riche tout en apprenant les capacités de raisonnement et de résolution de problèmes.
Au cours de la phase de formation intermédiaire, Phi-4 a étendu la longueur du contexte de 4096 à 16384 pour améliorer la capacité du modèle à gérer les textes longs. Cela comprenait des échantillons de plus de 8K de contexte sélectionnés à partir d'ensembles de données non synthétiques de haute qualité, ainsi que de nouveaux ensembles de données synthétiques créés pour répondre aux exigences de séquence 4K.
La phase de post-formation est essentielle pour l'optimisation de Phi-4. Microsoft a adopté les techniques de mise au point supervisée (SFT) et d'optimisation directe des préférences (DPO).
- Phase SFT : Le modèle préformé a été affiné en utilisant environ 8 milliards de jetons générés à partir de données de haute qualité provenant de différents domaines. Le taux d'apprentissage était de 10-6 et des données multilingues dans 40 langues ont été ajoutées. Toutes les données ont été formatées en chatml.
- Technologie DPO : La sortie du modèle a été ajustée en générant des données de préférence pour la rendre plus conforme aux préférences humaines. Microsoft a également introduit la technologie de recherche de jetons clés (PTS) pour générer des paires DPO. Cette technologie peut identifier les jetons clés qui ont un impact significatif sur l'exactitude des réponses du modèle et créer des données de préférence pour ces jetons, améliorant ainsi les performances du modèle dans les tâches de raisonnement.
L'évaluation des performances de Phi-4
Pour évaluer les performances de Phi-4, Microsoft a effectué des tests sur plusieurs benchmarks. Dans les benchmarks académiques, tels que MMLU, GPQA, MATH et HumanEval, Phi-4 a fait preuve d'excellence.
Dans le test MMLU, Phi-4 a obtenu un score élevé de 84,8. Dans les tests GPQA et MATH, il a même surpassé GPT-4o, démontrant de fortes capacités de raisonnement dans les tâches liées aux concours mathématiques. En comparaison avec d'autres modèles de taille similaire et de plus grande taille, Phi-4 a surpassé le modèle open source Qwen-2.5-14B-Instruct dans 9 des 12 benchmarks.