Published on

ESM3によるタンパク質研究の飛躍的進歩'無料APIとヤン・ルカンの支持

著者
  • avatar
    名前
    Ajax
    Twitter

EvolutionaryscaleのESM3:タンパク質研究における飛躍

昨年6月25日、Evolutionaryscaleは、980億のパラメータを誇る画期的な生物学的モデルであるESM3を発表しました。これは、世界最大級のモデルであり、タンパク質の理解と操作の方法に大きな進歩をもたらします。

ESM3は、タンパク質の三次元構造と機能を離散アルファベットに変換することで動作します。この革新的なアプローチにより、各3D構造は文字のシーケンスとして表現できます。その結果、ESM3はタンパク質の配列、構造、および機能を同時に処理し、原子レベルの詳細と高レベルの指示を組み合わせた複雑なプロンプトに応答して、まったく新しいタンパク質を生成できます。驚くべきことに、ESM3による進化のシミュレーションは、5兆年の自然進化に匹敵します。

無料APIアクセスと専門家の支持

ESM3が最初に導入されたとき、科学界と製薬業界は騒然となりました。最近、午前4時に、Evolutionaryscaleは、世界中の科学者のタンパク質予測を加速することを目的として、ESM3 APIの無料提供を発表しました。

この動きは、チューリング賞受賞者であり、Metaのチーフサイエンティストであるヤン・ルカンから熱狂的に迎えられ、彼はEvolutionaryscaleの業績を「非常にクールなこと」と称賛しました。

長年AIを報道してきたジャーナリストとして、これは画期的な瞬間だと私は信じています。ESM3は単なるモデルではなく、原子レベルでタンパク質を理解し生成する上でのブレークスルーであり、医療分野に大きな影響を与えることが期待されます。

ESM3の計算能力とコア機能

ESM3は、世界で最も強力なGPUクラスターの1つでトレーニングされ、1x10^24 FLOPSを超える計算能力と980億のパラメータを利用しました。これは、これまでの生物学的モデルトレーニングにおける最大の計算投資を表しています。

モデルのコアの強みは、タンパク質の動作を理解するために不可欠な属性である、タンパク質の配列、構造、および機能を同時に処理できることです。これは、3D構造と機能を離散アルファベットに変換することで実現され、大規模なトレーニングと新しい生成機能のロックを解除します。

  • マルチモーダルアプローチ: ESM3は、マルチモーダルアプローチを採用しており、進化の観点から配列、構造、および機能の間の深い関連性を学習できます。
  • マスク化言語モデリング: トレーニング中、ESM3はマスク化言語モデリングの目的を使用します。タンパク質の配列、構造、および機能の一部をマスクし、マスクされた部分を予測します。これにより、モデルはこれらの要素間の関係を深く理解し、数十億のタンパク質とパラメータのスケールで進化をシミュレートします。

新規タンパク質の生成と現実世界の応用

ESM3のマルチモーダル推論により、前例のない精度で新しいタンパク質を生成できます。たとえば、科学者は、構造的、配列的、および機能的な要件を組み合わせることにより、特定の活性部位を持つタンパク質足場を作成するようにESM3に指示できます。この機能は、タンパク質工学、特にプラスチック廃棄物の分解などのタスク用の酵素の設計において、大きな可能性を秘めています。

ESM3の重要な機能は、モデルが成長するにつれて問題解決能力を向上させる、スケーリングする能力です。さらに、ESM3は自己フィードバックと実験室データを通じて自己改善し、生成されたタンパク質の品質を向上させることができます。

現実世界のアプリケーションでは、ESM3はすでに目覚ましい能力を発揮しています。たとえば、既知の蛍光タンパク質との配列類似性がわずか58%の新しい緑色蛍光タンパク質(esmGFP)を生成することに成功しています。

  • esmGFPのブレークスルー: 実験結果は、esmGFPの明るさが天然のGFPに匹敵することを示しています。ただし、その進化経路は自然進化とは異なり、ESM3が短時間で5億年以上の自然進化をシミュレートできることを示しています。