- Publié le
DeepSeek V3 : Un modèle open-source révolutionnaire qui défie les géants de l'IA
DeepSeek V3 : Un modèle open-source révolutionnaire
DeepSeek V3, un modèle Mixture-of-Experts (MoE) avec 671 milliards de paramètres, a été publié en open-source, suscitant un vif intérêt dans la communauté de l'IA. Il a été entraîné sur 14,8 billions de tokens de haute qualité, avec seulement 37 milliards de paramètres activés pendant l'inférence.
Ce modèle atteint des performances de pointe (SOTA) parmi les modèles open-source, surpassant Llama 3.1 405B et rivalisant avec des modèles de premier plan tels que GPT-4o et Claude 3.5 Sonnet. De plus, DeepSeek V3 est considérablement moins cher que les modèles Claude 3.5, ne coûtant que 9% de Claude 3.5 Sonnet.
Entraînement rentable
L'entraînement de DeepSeek V3 a nécessité moins de 2,8 millions d'heures de GPU, ce qui contraste fortement avec les 30,8 millions d'heures de GPU de Llama 3 405B. Le coût total de formation pour DeepSeek V3 était d'environ 5,576 millions de dollars, tandis que la formation d'un modèle Llama 2 de 7B coûte 760 000 dollars.
Cette rentabilité est attribuée à des algorithmes, des frameworks et du matériel optimisés. Karpathy, un membre fondateur d'OpenAI, a noté que DeepSeek V3 atteint des performances comparables avec beaucoup moins de ressources, soulignant le potentiel d'optimisation des données et des algorithmes.
Performance et évaluation
DeepSeek V3 a reçu les éloges d'experts en IA tels que Jia Yangqing et Tian Yundong de Meta. Il surpasse d'autres modèles open-source comme Qwen2.5-72B et Llama-3.1-405B dans divers benchmarks. Les performances du modèle sont comparables à celles des meilleurs modèles à source fermée tels que GPT-4o et Claude-3.5-Sonnet.
DeepSeek V3 génère des tokens à un rythme de 60 par seconde, soit une amélioration de vitesse de 3x. La tarification de l'API est également très compétitive, avec des tokens d'entrée coûtant 0,5 à 2 RMB par million et des tokens de sortie coûtant 8 RMB par million. L'évaluation de Kagi place DeepSeek V3 au sommet des modèles open-source, juste derrière Sonnet-3.5 et GPT-4o.
Engagement communautaire
Le modèle est disponible pour les tests sur la plateforme officielle, avec un code open-source téléchargeable. Les passionnés d'IA ont expérimenté DeepSeek V3, notamment en l'exécutant sur des Mac Minis empilés. Les développeurs ont exprimé leur étonnement face à la capacité du modèle à comprendre des instructions complexes sans explications explicites.
Un développeur a créé un jeu utilisant des logos d'entreprises d'IA avec DeepSeek V3 en peu de temps. Le faible coût d'exécution de DeepSeek V3 a été souligné, un utilisateur notant qu'il ne coûte que 2 dollars par jour pour fonctionner à 60 tokens par seconde.
Détails de la formation
La formation de DeepSeek V3 a été optimisée grâce à des améliorations algorithmiques, de framework et matérielles. Le modèle a été entraîné sur un billion de tokens en 180 000 heures de GPU, achevant le pré-entraînement en moins de deux mois. Le coût total de formation était de 2,788 millions d'heures de GPU, soit 5,576 millions de dollars.
Les principales optimisations comprennent:
- Équilibrage de charge: Une nouvelle stratégie d'équilibrage de charge avec des termes de biais pour chaque expert dans l'architecture MoE.
- Prédiction multi-tokens (MTP): Un objectif de formation qui améliore les performances du modèle et permet une inférence plus rapide grâce au décodage spéculatif.
- Formation FP8: L'utilisation de la formation en précision mixte FP8, démontrant sa faisabilité pour les modèles à grande échelle.
- DualPipe: Un algorithme parallèle de pipeline efficace qui chevauche le calcul et la communication, réduisant les frais de communication.
L'architecture MoE se compose de 256 experts de routage et d'un expert partagé, chaque token activant 8 experts et étant envoyé à un maximum de 4 nœuds. Des experts redondants sont déployés pour équilibrer la charge pendant l'inférence. Les capacités d'inférence du modèle ont été améliorées en distillant les connaissances d'un modèle à longue chaîne (DeepSeek R1).
Résultats expérimentaux
DeepSeek V3 atteint des performances SOTA parmi les modèles open-source dans divers benchmarks. Le modèle fonctionne bien dans les expériences de "l'aiguille dans une botte de foin", démontrant sa capacité à récupérer des informations spécifiques dans des contextes longs.
Ressources
- Rapport technique: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3