Publié le

ESM3 d'Evolutionaryscale Révolutionne la Recherche sur les Protéines

Auteurs
  • avatar
    Nom
    Ajax
    Twitter

ESM3 : Une avancée majeure dans la recherche sur les protéines

L'année dernière, le 25 juin, Evolutionaryscale a dévoilé ESM3, un modèle biologique révolutionnaire doté de 98 milliards de paramètres, ce qui en fait le plus grand de son genre à l'échelle mondiale. Ce modèle représente un progrès significatif dans notre façon de comprendre et de manipuler les protéines.

ESM3 fonctionne en transformant la structure tridimensionnelle et la fonction des protéines en un alphabet discret. Cette approche innovante permet de représenter chaque structure 3D comme une séquence de lettres. Par conséquent, ESM3 peut traiter simultanément la séquence, la structure et la fonction d'une protéine, en répondant à des invites complexes qui combinent des détails au niveau atomique avec des instructions de haut niveau pour générer des protéines entièrement nouvelles. De manière impressionnante, la simulation de l'évolution par ESM3 est comparable à 5 billions d'années d'évolution naturelle.

Accès gratuit à l'API et approbation d'experts

Les communautés scientifiques et pharmaceutiques étaient en effervescence lors de la présentation initiale d'ESM3. Récemment, à 4 heures du matin, Evolutionaryscale a annoncé la disponibilité gratuite de l'API ESM3, dans le but d'accélérer la prédiction des protéines pour les scientifiques du monde entier.

Cette initiative a été accueillie avec enthousiasme par le lauréat du prix Turing et scientifique en chef de Meta, Yann LeCun, qui a salué la réalisation d'Evolutionaryscale comme étant "une chose très cool".

En tant que journaliste couvrant l'IA depuis de nombreuses années, je crois que c'est un moment historique. ESM3 est plus qu'un simple modèle ; c'est une percée dans la compréhension et la génération de protéines au niveau atomique, qui promet d'avoir un impact profond sur le domaine médical.

La puissance de calcul et les capacités fondamentales d'ESM3

ESM3 a été formé sur l'un des clusters GPU les plus puissants au monde, utilisant plus de 1x10^24 FLOPS de puissance de calcul et 98 milliards de paramètres. Cela représente le plus grand investissement de calcul dans la formation de modèles biologiques à ce jour.

La force principale du modèle réside dans sa capacité à traiter simultanément la séquence, la structure et la fonction des protéines, des attributs essentiels pour comprendre leur fonctionnement. Ceci est réalisé en convertissant les structures et fonctions 3D en un alphabet discret, ce qui permet une formation à grande échelle et débloque de nouvelles capacités génératives.

Approche multimodale et modélisation de langage masquée

  • Approche multimodale : ESM3 utilise une approche multimodale, lui permettant d'apprendre les liens profonds entre la séquence, la structure et la fonction d'un point de vue évolutif.
  • Modélisation de langage masquée : Pendant la formation, ESM3 utilise un objectif de modélisation de langage masqué. Il masque partiellement la séquence, la structure et la fonction des protéines, puis prédit les parties masquées. Cela oblige le modèle à comprendre en profondeur les relations entre ces éléments, simulant l'évolution à l'échelle de milliards de protéines et de paramètres.

Génération de nouvelles protéines et applications concrètes

Le raisonnement multimodal d'ESM3 lui permet de générer de nouvelles protéines avec une précision sans précédent. Par exemple, les scientifiques peuvent demander à ESM3 de créer des échafaudages de protéines avec des sites actifs spécifiques en combinant des exigences structurelles, séquentielles et fonctionnelles. Cette capacité a un potentiel important en ingénierie des protéines, en particulier dans la conception d'enzymes pour des tâches telles que la décomposition des déchets plastiques.

Une caractéristique clé d'ESM3 est sa capacité à évoluer, améliorant sa capacité à résoudre les problèmes à mesure que le modèle grandit. De plus, ESM3 peut s'améliorer grâce à l'auto-rétroaction et aux données de laboratoire, améliorant ainsi la qualité de ses protéines générées.

Dans les applications concrètes, ESM3 a déjà démontré des capacités impressionnantes. Par exemple, il a réussi à générer une nouvelle protéine fluorescente verte (esmGFP) avec seulement 58 % de similitude de séquence avec les protéines fluorescentes connues.

Percée esmGFP

Les résultats expérimentaux montrent que la luminosité de l'esmGFP est comparable à celle de la GFP naturelle. Cependant, sa voie évolutive diffère de l'évolution naturelle, démontrant qu'ESM3 peut simuler plus de 500 millions d'années d'évolution naturelle en peu de temps.