Publié le

Révélation Inattendue du Nouveau Modèle de Deepseek : Les Benchmarks de Programmation Dépassent Claude 3.5 Sonnet

Auteurs
  • avatar
    Nom
    Ajax
    Twitter

Deepseek-v3 : Une Révolution Inattendue dans le Monde de l'IA

Le monde de l'intelligence artificielle a été secoué par l'apparition inattendue de Deepseek-v3, un modèle de langage de grande taille (LLM) qui n'avait pas été annoncé officiellement. Cette fuite a révélé des performances exceptionnelles, notamment dans le domaine de la programmation, où il a surpassé Claude 3.5 Sonnet sur le benchmark Aider. Ce développement marque un tournant, car Deepseek-v3 se positionne désormais comme le LLM open-source le plus performant sur la plateforme d'évaluation LiveBench.

Points Clés de Deepseek-v3

  • Performance Surprenante : Deepseek-v3 a démontré des capacités supérieures à Claude 3.5 Sonnet, un modèle de référence dans le domaine, notamment en programmation multilingue.
  • Leader Open-Source : Il est actuellement considéré comme le LLM open-source le plus puissant sur la plateforme LiveBench.
  • Architecture MoE Améliorée : Le modèle utilise une architecture Mixture of Experts (MoE) avec 685 milliards de paramètres, ce qui représente une amélioration significative par rapport aux versions précédentes.

Contexte de la Fuite

L'existence de Deepseek-v3 a été révélée par des utilisateurs de Reddit qui ont découvert le modèle disponible via des APIs et des pages web. Cette fuite a permis à la communauté de tester et d'évaluer les performances du modèle sur divers benchmarks, notamment Aider et LiveBench. Les poids open-source du modèle sont déjà disponibles sur Hugging Face, bien qu'une carte de modèle ne soit pas encore disponible.

Détails Techniques de Deepseek-V3

Architecture du Modèle

  • Taille des Paramètres : 685 milliards de paramètres.
  • Structure MoE : Architecture Mixture of Experts avec 256 experts.
  • Routage : Utilise une fonction sigmoïde pour le routage, sélectionnant les 8 meilleurs experts (Top-k=8).
  • Fenêtre Contextuelle : Prend en charge une fenêtre contextuelle de 64K, avec une valeur par défaut de 4K et un maximum de 8K.
  • Vitesse de Génération de Tokens : Environ 60 tokens par seconde.

Changements Architecturaux Clés par Rapport à la Version V2

  • Fonction de Porte : La version v3 utilise une fonction sigmoïde au lieu de softmax pour la sélection des experts. Cela permet au modèle de choisir parmi un plus grand ensemble d'experts, contrairement à softmax qui a tendance à favoriser quelques-uns.
  • Sélection Top-k : La version v3 introduit une nouvelle méthode noaux_tc pour la sélection Top-k, qui ne nécessite pas de perte auxiliaire. Cela simplifie la formation et améliore l'efficacité en utilisant directement la fonction de perte de la tâche principale.
  • Ajustement du Score d'Expert : Un nouveau paramètre, e_score_correction_bias, a été ajouté pour ajuster les scores d'experts, ce qui améliore les performances lors de la sélection des experts et de la formation du modèle.

Comparaison avec les Versions V2 et V2.5

  • v3 vs v2 : La version v3 est essentiellement une version améliorée de la v2, avec des améliorations significatives dans tous les paramètres.
  • v3 vs v2.5 : La version v3 surpasse la v2.5 en termes de configuration, avec plus d'experts, des tailles de couches intermédiaires plus grandes et plus d'experts par token.

Tests Utilisateurs et Observations

Premiers Tests

Simon Willison, un développeur, a testé Deepseek-v3 et a constaté qu'il s'identifiait comme étant basé sur l'architecture GPT-4 d'OpenAI. Le modèle a également été testé pour la génération d'images, créant une image SVG d'un pélican faisant du vélo.

Auto-Identification Inattendue

Plusieurs utilisateurs ont signalé que Deepseek-v3 s'identifiait comme étant basé sur des modèles OpenAI, probablement en raison de l'utilisation de réponses de modèles OpenAI pendant la formation.

Réaction de la Communauté

La sortie inattendue et les fortes performances de Deepseek-v3 ont suscité l'enthousiasme au sein de la communauté. Certains utilisateurs estiment que les performances de Deepseek-v3 dépassent celles des modèles d'OpenAI, en particulier dans le domaine de l'open-source.

Ressources Additionnelles

La fuite de Deepseek-v3 marque une étape importante dans le développement de l'IA, en particulier pour les modèles open-source. Ses performances impressionnantes et son architecture avancée laissent entrevoir un avenir prometteur pour l'intelligence artificielle. Ce modèle représente une avancée significative, non seulement pour la recherche, mais aussi pour les applications pratiques dans divers domaines. La communauté attend avec impatience les développements futurs et les améliorations qui pourraient être apportées à ce modèle prometteur.