Published on

ESM3 단백질 연구의 혁신 500만 년 진화 시뮬레이션과 무료 API

저자
  • avatar
    이름
    Ajax
    Twitter

ESM3: 단백질 연구의 새로운 장을 열다

Evolutionaryscale이 작년 6월 25일에 공개한 ESM3는 980억 개의 파라미터를 자랑하는 세계 최대 규모의 생물학적 모델입니다. 이 모델은 단백질을 이해하고 조작하는 방식에 있어 중요한 진전을 의미합니다.

ESM3는 단백질의 3차원 구조와 기능을 이산 알파벳으로 변환하는 혁신적인 방식으로 작동합니다. 이를 통해 각 3D 구조는 일련의 문자로 표현될 수 있습니다. 결과적으로 ESM3는 단백질의 서열, 구조 및 기능을 동시에 처리하고, 원자 수준의 세부 사항과 높은 수준의 지침을 결합한 복잡한 프롬프트에 응답하여 완전히 새로운 단백질을 생성할 수 있습니다. 특히, ESM3의 진화 시뮬레이션은 5조 년에 달하는 자연 진화에 비견될 만합니다.

무료 API 공개와 전문가의 지지

ESM3가 처음 소개되었을 때 과학 및 제약계는 큰 관심을 보였습니다. 최근에는 Evolutionaryscale이 전 세계 과학자들의 단백질 예측을 가속화하기 위해 ESM3 API를 무료로 공개한다고 발표했습니다.

이러한 움직임은 튜링상 수상자이자 Meta의 최고 과학자인 Yann LeCun으로부터 "매우 멋진 일"이라는 찬사를 받으며 큰 호응을 얻었습니다.

오랜 기간 AI를 취재해 온 저널리스트로서, 저는 이것이 획기적인 순간이라고 생각합니다. ESM3는 단순한 모델을 넘어 원자 수준에서 단백질을 이해하고 생성하는 데 혁신을 가져왔으며, 의료 분야에 큰 영향을 미칠 것으로 기대됩니다.

ESM3의 계산 능력 및 핵심 기능

ESM3는 1x10^24 FLOPS 이상의 컴퓨팅 성능과 980억 개의 파라미터를 활용하여 세계에서 가장 강력한 GPU 클러스터 중 하나에서 훈련되었습니다. 이는 생물학적 모델 훈련에 대한 사상 최대 규모의 컴퓨팅 투자입니다.

모델의 핵심 강점은 단백질의 작동 방식을 이해하는 데 필수적인 속성인 단백질의 서열, 구조 및 기능을 동시에 처리하는 능력에 있습니다. 이는 3D 구조와 기능을 이산 알파벳으로 변환하여 대규모 훈련을 가능하게 하고 새로운 생성 기능을 활용하여 달성됩니다.

  • 다중 모드 접근 방식: ESM3는 다중 모드 접근 방식을 사용하여 진화적 관점에서 서열, 구조 및 기능 간의 깊은 연결을 학습합니다.
  • 마스크 언어 모델링: 훈련 중 ESM3는 마스크 언어 모델링 목표를 사용합니다. 단백질의 서열, 구조 및 기능의 일부를 마스크한 다음 마스크된 부분을 예측합니다. 이를 통해 모델은 수십억 개의 단백질과 파라미터 규모에서 진화를 시뮬레이션하면서 이러한 요소 간의 관계를 깊이 이해하게 됩니다.

새로운 단백질 생성 및 실제 응용

ESM3의 다중 모드 추론을 통해 이전에는 불가능했던 정밀도로 새로운 단백질을 생성할 수 있습니다. 예를 들어, 과학자들은 ESM3에 구조적, 서열적 및 기능적 요구 사항을 결합하여 특정 활성 부위를 가진 단백질 스캐폴드를 생성하도록 지시할 수 있습니다. 이 기능은 특히 플라스틱 폐기물을 분해하는 것과 같은 작업에 필요한 효소를 설계하는 단백질 공학 분야에서 상당한 잠재력을 가지고 있습니다.

ESM3의 주요 특징은 모델이 성장함에 따라 문제 해결 능력을 향상시키는 확장 능력입니다. 또한 ESM3는 자체 피드백 및 실험실 데이터를 통해 자체적으로 개선하여 생성된 단백질의 품질을 향상시킬 수 있습니다.

실제 응용 분야에서 ESM3는 이미 인상적인 능력을 보여주었습니다. 예를 들어, 알려진 형광 단백질과 58%의 서열 유사성만 가진 새로운 녹색 형광 단백질(esmGFP)을 성공적으로 생성했습니다.

esmGFP의 혁신

실험 결과 esmGFP의 밝기는 자연 GFP와 비슷합니다. 그러나 진화 경로는 자연 진화와 다르며, 이는 ESM3가 짧은 시간 안에 5억 년 이상의 자연 진화를 시뮬레이션할 수 있음을 보여줍니다.