- Published on
ESM3蛋白质研究突破'免费API获Yann LeCun认可'
ESM3:蛋白质研究的飞跃
去年6月25日,Evolutionaryscale推出了ESM3,这是一个具有突破性的生物模型,拥有980亿个参数,是全球同类模型中最大的。该模型代表了我们理解和操作蛋白质方式的重大进步。
ESM3通过将蛋白质的三维结构和功能转换为离散的字母表来运行。这种创新方法允许将每个3D结构表示为一系列字母。因此,ESM3可以同时处理蛋白质的序列、结构和功能,响应结合原子级细节和高级指令的复杂提示,以生成全新的蛋白质。令人印象深刻的是,ESM3对进化的模拟相当于5万亿年的自然进化。
免费API访问和专家认可
ESM3最初推出时,科学界和制药界一片哗然。最近,在凌晨4点,Evolutionaryscale宣布免费提供ESM3 API,旨在加速全球科学家对蛋白质的预测。
图灵奖得主和Meta首席科学家Yann LeCun对这一举动表示赞赏,称Evolutionaryscale的成就“非常酷”。
作为一名多年报道人工智能的记者,我认为这是一个具有里程碑意义的时刻。ESM3不仅仅是一个模型;它是理解和在原子水平上生成蛋白质的突破,有望对医学领域产生深远的影响。
ESM3的计算能力和核心功能
ESM3是在全球最强大的GPU集群之一上进行训练的,利用了超过1x10^24 FLOPS的计算能力和980亿个参数。这代表了迄今为止生物模型训练中最大的计算投资。
该模型的核心优势在于其同时处理蛋白质的序列、结构和功能的能力,这些是理解蛋白质运作的基本属性。这是通过将3D结构和功能转换为离散的字母表来实现的,从而实现大规模训练并释放新的生成能力。
- 多模态方法: ESM3采用多模态方法,使其能够从进化的角度学习序列、结构和功能之间的深层联系。
- 掩码语言建模: 在训练期间,ESM3使用掩码语言建模目标。它部分掩盖蛋白质的序列、结构和功能,然后预测被掩盖的部分。这迫使模型深入理解这些元素之间的关系,模拟数十亿蛋白质和参数规模的进化。
生成新型蛋白质和实际应用
ESM3的多模态推理使其能够以前所未有的精度生成新的蛋白质。例如,科学家可以通过结合结构、序列和功能要求,指导ESM3创建具有特定活性位点的蛋白质支架。这种能力在蛋白质工程中具有巨大的潜力,特别是在设计用于分解塑料废物等任务的酶方面。
ESM3的一个关键特性是它的可扩展性,随着模型的增长,其解决问题的能力也会提高。此外,ESM3可以通过自我反馈和实验室数据来改进自身,从而提高其生成的蛋白质的质量。
在实际应用中,ESM3已经显示出令人印象深刻的能力。例如,它成功生成了一种新的绿色荧光蛋白(esmGFP),与已知的荧光蛋白仅有58%的序列相似性。
esmGFP的突破
实验结果表明,esmGFP的亮度与天然GFP相当。然而,它的进化路径与自然进化不同,这表明ESM3可以在短时间内模拟超过5亿年的自然进化。