- Publié le
Kimi k1.5 rivalise avec OpenAI o1 : une avancée majeure en IA multimodale
L'ascension fulgurante de Kimi k1.5 : un défi à OpenAI
Dans le domaine en constante évolution de l'intelligence artificielle, une avancée significative a été réalisée avec le dévoilement du modèle multimodal Kimi k1.5 par Moonshot AI. Ce modèle révolutionnaire a démontré des niveaux de performance qui rivalisent avec la version complète o1 d'OpenAI, un exploit auparavant inatteignable par toute autre entité en dehors d'OpenAI. Ce développement marque un nouveau chapitre dans la quête de capacités d'IA avancées, mettant en évidence le potentiel de l'innovation nationale face à la concurrence mondiale.
Le modèle Kimi k1.5 se distingue par ses capacités complètes dans divers domaines, notamment les mathématiques, le codage et le raisonnement multimodal. Ses performances dans ces domaines ne sont pas seulement comparables à la version complète o1, mais, dans certains aspects, les dépassent. Notamment, la variante kimi-k1.5-short émerge comme un modèle de pointe (SOTA) de raisonnement en chaîne courte (CoT), surpassant GPT-4o et Claude 3.5 Sonnet de 550 %. Cette avancée significative souligne les capacités exceptionnelles du modèle et son potentiel à redéfinir les références en matière de performances de l'IA.
Transparence et collaboration : les piliers de l'approche de Moonshot AI
La réalisation de Moonshot AI n'est pas simplement une étape technique, mais un témoignage de la transparence et de l'esprit de collaboration qui font souvent défaut dans le paysage concurrentiel de l'IA. En publiant leur rapport technique, Moonshot AI invite la communauté technologique au sens large à examiner, à apprendre et à contribuer à leur travail. Cette démarche souligne leur conviction que le chemin vers l'intelligence artificielle générale (AGI) est un effort collectif, nécessitant la participation de divers talents et perspectives.
Des performances SOTA dans plusieurs domaines clés
Les tests complets du modèle Kimi k1.5 révèlent son statut SOTA dans plusieurs domaines clés. En mode long-CoT, il égale les performances de la version officielle o1 d'OpenAI en mathématiques, en codage et en raisonnement multimodal. Ses scores sur des benchmarks comme AIME (77,5), MATH 500 (96,2), Codeforces (94e percentile) et MathVista (74,9) sont révélateurs de ses prouesses. Cette réalisation marque la première fois qu'une entreprise en dehors d'OpenAI atteint le niveau de performance complet o1.
De plus, en mode court-CoT, le modèle Kimi k1.5 a démontré des performances SOTA mondiales, surpassant considérablement GPT-4o et Claude 3.5 Sonnet. Ses scores sur AIME (60,8), MATH500 (94,6) et LiveCodeBench (47,3) témoignent de ses capacités exceptionnelles en matière de raisonnement en chaîne courte. Ces résultats ne sont pas que des chiffres ; ils représentent un changement de paradigme dans les capacités des modèles d'IA multimodaux.
Une approche innovante basée sur l'apprentissage par renforcement
Le développement du modèle Kimi k1.5 n'est pas le fruit du hasard, mais le résultat d'une approche délibérée et innovante. L'équipe de Moonshot AI a reconnu que le simple fait d'augmenter les paramètres pendant le pré-entraînement ne donnerait pas les résultats souhaités. Ils se sont tournés vers le post-entraînement basé sur l'apprentissage par renforcement comme domaine clé d'amélioration. Cette approche permet au modèle d'étendre ses données d'entraînement grâce à une exploration basée sur la récompense, augmentant ainsi ses capacités de calcul.
Le rapport technique détaille l'exploration par l'équipe des techniques d'entraînement par apprentissage par renforcement (RL), des recettes de données multimodales et de l'optimisation de l'infrastructure. Leur cadre RL, notamment, est à la fois simple et efficace, évitant des techniques plus complexes comme la recherche arborescente de Monte Carlo et les fonctions de valeur. Ils ont également introduit la technique long2short, qui exploite les modèles Long-CoT pour améliorer les performances des modèles Short-CoT.
Les fondements de l'apprentissage par renforcement de Kimi k1.5
Deux éléments essentiels sous-tendent le cadre RL de l'équipe : la mise à l'échelle du contexte long et l'optimisation améliorée de la politique. En mettant à l'échelle la fenêtre de contexte à 128k, ils ont observé une amélioration continue des performances du modèle. Ils utilisent également le déploiement partiel pour améliorer l'efficacité de l'entraînement, en réutilisant d'anciennes trajectoires pour en échantillonner de nouvelles. L'équipe a également dérivé une formule d'apprentissage par renforcement avec long-CoT, employant une variante de la descente de miroir en ligne pour une optimisation robuste de la politique.
La technique long2short : une approche novatrice
La technique long2short implique plusieurs méthodes, notamment la fusion de modèles, l'échantillonnage par rejet le plus court, DPO et long2short RL. La fusion de modèles combine les modèles long-CoT et short-CoT pour obtenir une meilleure efficacité des jetons. L'échantillonnage par rejet le plus court sélectionne la réponse correcte la plus courte pour l'ajustement fin. DPO utilise des paires de réponses courtes et longues pour les données d'entraînement. Long2short RL implique une phase d'entraînement distincte avec une pénalité de longueur.
L'avenir de Kimi k1.5 et de l'IA chez Moonshot AI
Pour l'avenir, Moonshot AI s'engage à accélérer la mise à niveau de ses modèles d'apprentissage par renforcement de la série k. Ils visent à introduire davantage de modalités, des capacités plus larges et des capacités générales améliorées. Cette vision ambitieuse les positionne comme un acteur clé dans le paysage mondial de l'IA, prêt à défier la domination d'acteurs établis comme OpenAI.
Le modèle Kimi k1.5 est plus qu'une simple réalisation technologique ; c'est un symbole du potentiel de l'innovation nationale dans le secteur de l'IA. Avec ses performances exceptionnelles et le partage ouvert de ses détails d'entraînement, Kimi k1.5 établit une nouvelle norme pour le développement de l'IA dans le monde entier. L'attente de sa sortie est forte et son impact devrait être profond.