Published on

ESM3 de Evolutionaryscale: Un Salto en la Investigación de Proteínas

Autores
  • avatar
    Nombre
    Ajax
    Twitter

ESM3: Un Avance en la Investigación de Proteínas

El año pasado, el 25 de junio, Evolutionaryscale presentó ESM3, un modelo biológico innovador que cuenta con 98 mil millones de parámetros, convirtiéndolo en el más grande de su tipo a nivel mundial. Este modelo representa un avance significativo en cómo entendemos y manipulamos las proteínas.

ESM3 opera transformando la estructura tridimensional y la función de las proteínas en un alfabeto discreto. Este enfoque innovador permite que cada estructura 3D se represente como una secuencia de letras. En consecuencia, ESM3 puede procesar simultáneamente la secuencia, estructura y función de una proteína, respondiendo a indicaciones complejas que combinan detalles a nivel atómico con instrucciones de alto nivel para generar proteínas completamente nuevas. Impresionantemente, la simulación de la evolución de ESM3 es comparable a 5 billones de años de evolución natural.

Acceso Gratuito a la API y Respaldo de Expertos

Las comunidades científica y farmacéutica se mostraron entusiasmadas cuando se presentó inicialmente ESM3. Recientemente, a las 4 de la mañana, Evolutionaryscale anunció la disponibilidad gratuita de la API de ESM3, con el objetivo de acelerar la predicción de proteínas para científicos de todo el mundo.

Esta medida fue recibida con entusiasmo por el ganador del Premio Turing y científico jefe de Meta, Yann LeCun, quien elogió el logro de Evolutionaryscale como 'algo muy genial'.

Como periodista que cubre la IA durante muchos años, creo que este es un momento histórico. ESM3 es más que un simple modelo; es un avance en la comprensión y generación de proteínas a nivel atómico, lo que promete un profundo impacto en el campo de la medicina.

El Poder Computacional y las Capacidades Clave de ESM3

ESM3 fue entrenado en uno de los clústeres de GPU más potentes a nivel mundial, utilizando más de 1x10^24 FLOPS de potencia de cómputo y 98 mil millones de parámetros. Esto representa la mayor inversión computacional en el entrenamiento de modelos biológicos hasta la fecha.

La fortaleza principal del modelo radica en su capacidad para procesar simultáneamente la secuencia, la estructura y la función de las proteínas, atributos esenciales para comprender su funcionamiento. Esto se logra convirtiendo estructuras y funciones 3D en un alfabeto discreto, lo que permite el entrenamiento a gran escala y desbloquea nuevas capacidades generativas.

  • Enfoque Multimodal: ESM3 emplea un enfoque multimodal, lo que le permite aprender conexiones profundas entre la secuencia, la estructura y la función desde una perspectiva evolutiva.
  • Modelado de Lenguaje Enmascarado: Durante el entrenamiento, ESM3 utiliza un objetivo de modelado de lenguaje enmascarado. Enmascara parcialmente la secuencia, la estructura y la función de las proteínas y luego predice las partes enmascaradas. Esto obliga al modelo a comprender profundamente las relaciones entre estos elementos, simulando la evolución en una escala de miles de millones de proteínas y parámetros.

Generación de Nuevas Proteínas y Aplicaciones en el Mundo Real

El razonamiento multimodal de ESM3 le permite generar nuevas proteínas con una precisión sin precedentes. Por ejemplo, los científicos pueden dirigir ESM3 para crear andamios de proteínas con sitios activos específicos combinando requisitos estructurales, de secuencia y funcionales. Esta capacidad tiene un potencial significativo en la ingeniería de proteínas, particularmente en el diseño de enzimas para tareas como la descomposición de residuos plásticos.

Una característica clave de ESM3 es su capacidad de escalar, mejorando su capacidad de resolución de problemas a medida que el modelo crece. Además, ESM3 puede mejorarse a sí mismo a través de la auto-retroalimentación y los datos de laboratorio, mejorando la calidad de sus proteínas generadas.

En aplicaciones del mundo real, ESM3 ya ha demostrado capacidades impresionantes. Por ejemplo, generó con éxito una nueva proteína fluorescente verde (esmGFP) con solo un 58% de similitud de secuencia con las proteínas fluorescentes conocidas.

  • Avance de esmGFP: Los resultados experimentales muestran que el brillo de esmGFP es comparable al GFP natural. Sin embargo, su camino evolutivo difiere de la evolución natural, lo que demuestra que ESM3 puede simular más de 500 millones de años de evolución natural en poco tiempo.