Published on

ESM3 da Evolutionaryscale Um Salto na Pesquisa de Proteínas

Autores
  • avatar
    Nome
    Ajax
    Twitter

ESM3: Um Modelo Revolucionário na Pesquisa de Proteínas

No ano passado, em 25 de junho, a Evolutionaryscale revelou o ESM3, um modelo biológico inovador com 98 bilhões de parâmetros, tornando-o o maior de seu tipo globalmente. Este modelo representa um avanço significativo na forma como entendemos e manipulamos proteínas.

O ESM3 opera transformando a estrutura tridimensional e a função das proteínas em um alfabeto discreto. Essa abordagem inovadora permite que cada estrutura 3D seja representada como uma sequência de letras. Consequentemente, o ESM3 pode processar simultaneamente a sequência, a estrutura e a função de uma proteína, respondendo a prompts complexos que combinam detalhes em nível atômico com instruções de alto nível para gerar proteínas totalmente novas. Impressionantemente, a simulação de evolução do ESM3 é comparável a 5 trilhões de anos de evolução natural.

Acesso Gratuito à API e Endosso de Especialista

As comunidades científica e farmacêutica ficaram agitadas quando o ESM3 foi inicialmente apresentado. Recentemente, às 4 da manhã, a Evolutionaryscale anunciou a disponibilidade gratuita da API do ESM3, com o objetivo de acelerar a previsão de proteínas para cientistas em todo o mundo.

Essa ação foi recebida com entusiasmo pelo vencedor do Prêmio Turing e cientista-chefe da Meta, Yann LeCun, que elogiou a conquista da Evolutionaryscale como "algo muito legal".

Como jornalista que cobre IA há muitos anos, acredito que este é um momento histórico. O ESM3 é mais do que apenas um modelo; é um avanço na compreensão e geração de proteínas em nível atômico, o que promete um profundo impacto no campo médico.

Poder Computacional e Principais Capacidades do ESM3

O ESM3 foi treinado em um dos clusters de GPU mais poderosos globalmente, utilizando mais de 1x10^24 FLOPS de poder computacional e 98 bilhões de parâmetros. Isso representa o maior investimento computacional em treinamento de modelos biológicos até hoje.

A principal força do modelo reside em sua capacidade de processar simultaneamente a sequência, a estrutura e a função das proteínas, atributos essenciais para entender seu funcionamento. Isso é alcançado convertendo estruturas 3D e funções em um alfabeto discreto, permitindo treinamento em larga escala e desbloqueando novas capacidades generativas.

  • Abordagem Multimodal: O ESM3 emprega uma abordagem multimodal, permitindo que ele aprenda conexões profundas entre sequência, estrutura e função de uma perspectiva evolutiva.
  • Modelagem de Linguagem Mascarada: Durante o treinamento, o ESM3 usa um objetivo de modelagem de linguagem mascarada. Ele mascara parcialmente a sequência, a estrutura e a função das proteínas e, em seguida, prevê as partes mascaradas. Isso força o modelo a entender profundamente as relações entre esses elementos, simulando a evolução em uma escala de bilhões de proteínas e parâmetros.

Geração de Novas Proteínas e Aplicações no Mundo Real

O raciocínio multimodal do ESM3 permite gerar novas proteínas com precisão sem precedentes. Por exemplo, os cientistas podem direcionar o ESM3 para criar andaimes de proteínas com sítios ativos específicos, combinando requisitos estruturais, de sequência e funcionais. Essa capacidade tem um potencial significativo na engenharia de proteínas, particularmente no projeto de enzimas para tarefas como a quebra de resíduos plásticos.

Uma característica chave do ESM3 é sua capacidade de escalar, melhorando sua capacidade de resolução de problemas à medida que o modelo cresce. Além disso, o ESM3 pode se aprimorar por meio de auto-feedback e dados de laboratório, aumentando a qualidade de suas proteínas geradas.

Em aplicações no mundo real, o ESM3 já demonstrou capacidades impressionantes. Por exemplo, ele gerou com sucesso uma nova proteína fluorescente verde (esmGFP) com apenas 58% de similaridade de sequência com proteínas fluorescentes conhecidas.

Avanço da esmGFP: Resultados experimentais mostram que o brilho da esmGFP é comparável ao da GFP natural. No entanto, seu caminho evolutivo difere da evolução natural, demonstrando que o ESM3 pode simular mais de 500 milhões de anos de evolução natural em um curto espaço de tempo.