Published on

ESM3蛋白质研究突破'免费API获Yann LeCun认可'

作者
  • avatar
    姓名
    Ajax
    Twitter

ESM3:蛋白质研究的飞跃

去年6月25日,Evolutionaryscale推出了ESM3,这是一个具有突破性的生物模型,拥有980亿个参数,是全球同类模型中最大的。该模型代表了我们理解和操作蛋白质方式的重大进步。

ESM3通过将蛋白质的三维结构和功能转换为离散的字母表来运行。这种创新方法允许将每个3D结构表示为一系列字母。因此,ESM3可以同时处理蛋白质的序列、结构和功能,响应结合原子级细节和高级指令的复杂提示,以生成全新的蛋白质。令人印象深刻的是,ESM3对进化的模拟相当于5万亿年的自然进化。

免费API访问和专家认可

ESM3最初推出时,科学界和制药界一片哗然。最近,在凌晨4点,Evolutionaryscale宣布免费提供ESM3 API,旨在加速全球科学家对蛋白质的预测。

图灵奖得主和Meta首席科学家Yann LeCun对这一举动表示赞赏,称Evolutionaryscale的成就“非常酷”。

作为一名多年报道人工智能的记者,我认为这是一个具有里程碑意义的时刻。ESM3不仅仅是一个模型;它是理解和在原子水平上生成蛋白质的突破,有望对医学领域产生深远的影响。

ESM3的计算能力和核心功能

ESM3是在全球最强大的GPU集群之一上进行训练的,利用了超过1x10^24 FLOPS的计算能力和980亿个参数。这代表了迄今为止生物模型训练中最大的计算投资。

该模型的核心优势在于其同时处理蛋白质的序列、结构和功能的能力,这些是理解蛋白质运作的基本属性。这是通过将3D结构和功能转换为离散的字母表来实现的,从而实现大规模训练并释放新的生成能力。

  • 多模态方法: ESM3采用多模态方法,使其能够从进化的角度学习序列、结构和功能之间的深层联系。
  • 掩码语言建模: 在训练期间,ESM3使用掩码语言建模目标。它部分掩盖蛋白质的序列、结构和功能,然后预测被掩盖的部分。这迫使模型深入理解这些元素之间的关系,模拟数十亿蛋白质和参数规模的进化。

生成新型蛋白质和实际应用

ESM3的多模态推理使其能够以前所未有的精度生成新的蛋白质。例如,科学家可以通过结合结构、序列和功能要求,指导ESM3创建具有特定活性位点的蛋白质支架。这种能力在蛋白质工程中具有巨大的潜力,特别是在设计用于分解塑料废物等任务的酶方面。

ESM3的一个关键特性是它的可扩展性,随着模型的增长,其解决问题的能力也会提高。此外,ESM3可以通过自我反馈和实验室数据来改进自身,从而提高其生成的蛋白质的质量。

在实际应用中,ESM3已经显示出令人印象深刻的能力。例如,它成功生成了一种新的绿色荧光蛋白(esmGFP),与已知的荧光蛋白仅有58%的序列相似性。

esmGFP的突破

实验结果表明,esmGFP的亮度与天然GFP相当。然而,它的进化路径与自然进化不同,这表明ESM3可以在短时间内模拟超过5亿年的自然进化。