- Published on
ESM3蛋白質研究突破' 模擬5億年進化' 免費API獲Yann LeCun讚賞
ESM3:蛋白質研究的重大躍進
去年6月25日' Evolutionaryscale推出了ESM3' 這是一個具有980億參數的開創性生物模型' 是全球同類模型中最大的。這個模型代表了我們理解和操作蛋白質方式的重大進步。
ESM3 的運作方式是將蛋白質的三維結構和功能轉換為離散的字母。這種創新的方法允許每個 3D 結構以字母序列表示。因此' ESM3 可以同時處理蛋白質的序列、結構和功能' 回應結合原子級細節和高階指令的複雜提示' 從而生成全新的蛋白質。令人印象深刻的是' ESM3 的進化模擬能力相當於 5 兆年的自然進化。
免費 API 存取與專家認可
ESM3 最初推出時' 引起了科學界和製藥界的廣泛關注。最近' 在凌晨 4 點' Evolutionaryscale 宣布免費提供 ESM3 API' 旨在加速全球科學家的蛋白質預測。
此舉受到了圖靈獎得主和 Meta 首席科學家 Yann LeCun 的熱烈歡迎' 他稱讚 Evolutionaryscale 的成就為「一件非常酷的事情」。
作為一名多年來報導人工智慧的記者' 我認為這是一個具有里程碑意義的時刻。ESM3 不僅僅是一個模型;它是在原子級別理解和生成蛋白質方面的突破' 有望對醫學領域產生深遠的影響。
ESM3 的計算能力與核心能力
ESM3 在全球最強大的 GPU 集群之一上進行了訓練' 利用超過 1x10^24 FLOPS 的計算能力和 980 億個參數。這代表了迄今為止生物模型訓練中最大的計算投資。
該模型的核心優勢在於其能夠同時處理蛋白質的序列、結構和功能' 這些都是理解其運作原理的關鍵屬性。這是透過將 3D 結構和功能轉換為離散字母來實現的' 從而實現大規模訓練並釋放新的生成能力。
- 多模態方法: ESM3 採用多模態方法' 使其能夠從演化的角度學習序列、結構和功能之間的深層聯繫。
- 遮蔽語言建模: 在訓練期間' ESM3 使用遮蔽語言建模目標。它部分遮蔽蛋白質的序列、結構和功能' 然後預測被遮蔽的部分。這迫使模型深入理解這些元素之間的關係' 模擬數十億蛋白質和參數規模的進化。
生成新型蛋白質與實際應用
ESM3 的多模態推理使其能夠以空前的精確度生成新的蛋白質。例如' 科學家可以指示 ESM3 透過結合結構、序列和功能要求來創建具有特定活性位點的蛋白質支架。這種能力在蛋白質工程中具有巨大的潛力' 特別是在設計用於分解塑膠廢料等任務的酶方面。
ESM3 的一個關鍵特性是其擴展能力' 隨著模型的增長而提高其解決問題的能力。此外' ESM3 可以透過自我反饋和實驗室數據來改進自身' 提高其生成的蛋白質的品質。
在實際應用中' ESM3 已經展現出令人印象深刻的能力。例如' 它成功生成了一種新的綠色螢光蛋白 (esmGFP)' 其序列與已知的螢光蛋白只有 58% 的相似性。
- esmGFP 的突破: 實驗結果表明' esmGFP 的亮度與天然 GFP 相當。然而' 其進化路徑與自然進化不同' 這表明 ESM3 可以在短時間內模擬超過 5 億年的自然進化。