Published on

ESM3 đột phá trong nghiên cứu protein mô phỏng 500 triệu năm tiến hóa

Tác giả
  • avatar
    Tên
    Ajax
    Twitter

ESM3: Bước nhảy vọt trong nghiên cứu protein

Năm ngoái, ngày 25 tháng 6, Evolutionaryscale đã giới thiệu ESM3, một mô hình sinh học mang tính đột phá với 98 tỷ tham số, trở thành mô hình lớn nhất thuộc loại này trên toàn cầu. Mô hình này đánh dấu một bước tiến đáng kể trong cách chúng ta hiểu và thao tác protein.

ESM3 hoạt động bằng cách chuyển đổi cấu trúc ba chiều và chức năng của protein thành một bảng chữ cái rời rạc. Cách tiếp cận sáng tạo này cho phép mỗi cấu trúc 3D được biểu diễn dưới dạng một chuỗi các chữ cái. Do đó, ESM3 có thể đồng thời xử lý trình tự, cấu trúc và chức năng của protein, đáp ứng các yêu cầu phức tạp kết hợp các chi tiết ở cấp độ nguyên tử với các hướng dẫn cấp cao để tạo ra các protein hoàn toàn mới. Ấn tượng hơn, mô phỏng tiến hóa của ESM3 có thể so sánh với 5 nghìn tỷ năm tiến hóa tự nhiên.

API miễn phí và sự chứng thực của chuyên gia

Cộng đồng khoa học và dược phẩm đã xôn xao khi ESM3 được giới thiệu lần đầu. Gần đây, lúc 4 giờ sáng, Evolutionaryscale đã công bố cung cấp miễn phí API của ESM3, nhằm mục đích đẩy nhanh quá trình dự đoán protein cho các nhà khoa học trên toàn thế giới.

Động thái này đã được người đoạt giải Turing và nhà khoa học trưởng của Meta, Yann LeCun, hưởng ứng nhiệt tình, ông ca ngợi thành tựu của Evolutionaryscale là "một điều rất tuyệt vời".

Là một nhà báo đưa tin về AI trong nhiều năm, tôi tin rằng đây là một khoảnh khắc mang tính bước ngoặt. ESM3 không chỉ là một mô hình; đó là một bước đột phá trong việc hiểu và tạo ra protein ở cấp độ nguyên tử, hứa hẹn một tác động sâu sắc đến lĩnh vực y tế.

Sức mạnh tính toán và khả năng cốt lõi của ESM3

ESM3 được đào tạo trên một trong những cụm GPU mạnh nhất trên toàn cầu, sử dụng hơn 1x10^24 FLOPS sức mạnh tính toán và 98 tỷ tham số. Điều này thể hiện khoản đầu tư tính toán lớn nhất vào đào tạo mô hình sinh học cho đến nay.

Sức mạnh cốt lõi của mô hình nằm ở khả năng xử lý đồng thời trình tự, cấu trúc và chức năng của protein, các thuộc tính thiết yếu để hiểu hoạt động của chúng. Điều này đạt được bằng cách chuyển đổi cấu trúc 3D và chức năng thành một bảng chữ cái rời rạc, cho phép đào tạo quy mô lớn và mở khóa các khả năng tạo sinh mới.

  • Phương pháp đa phương thức: ESM3 sử dụng phương pháp đa phương thức, cho phép nó học các kết nối sâu sắc giữa trình tự, cấu trúc và chức năng từ góc độ tiến hóa.
  • Mô hình hóa ngôn ngữ mặt nạ: Trong quá trình đào tạo, ESM3 sử dụng mục tiêu mô hình hóa ngôn ngữ mặt nạ. Nó che một phần trình tự, cấu trúc và chức năng của protein, sau đó dự đoán các phần bị che. Điều này buộc mô hình phải hiểu sâu sắc các mối quan hệ giữa các yếu tố này, mô phỏng sự tiến hóa trên quy mô hàng tỷ protein và tham số.

Tạo ra protein mới và ứng dụng thực tế

Khả năng suy luận đa phương thức của ESM3 cho phép nó tạo ra các protein mới với độ chính xác chưa từng có. Ví dụ, các nhà khoa học có thể hướng dẫn ESM3 tạo ra các giàn protein với các vị trí hoạt động cụ thể bằng cách kết hợp các yêu cầu về cấu trúc, trình tự và chức năng. Khả năng này có tiềm năng đáng kể trong kỹ thuật protein, đặc biệt là trong việc thiết kế các enzyme cho các nhiệm vụ như phân hủy chất thải nhựa.

Một tính năng chính của ESM3 là khả năng mở rộng, cải thiện khả năng giải quyết vấn đề của nó khi mô hình phát triển. Hơn nữa, ESM3 có thể tự cải thiện thông qua phản hồi tự thân và dữ liệu phòng thí nghiệm, nâng cao chất lượng của các protein do nó tạo ra.

Trong các ứng dụng thực tế, ESM3 đã thể hiện những khả năng ấn tượng. Ví dụ, nó đã tạo ra thành công một protein huỳnh quang xanh mới (esmGFP) chỉ có 58% độ tương đồng trình tự với các protein huỳnh quang đã biết.

Đột phá esmGFP

Kết quả thử nghiệm cho thấy độ sáng của esmGFP có thể so sánh với GFP tự nhiên. Tuy nhiên, con đường tiến hóa của nó khác với tiến hóa tự nhiên, chứng minh rằng ESM3 có thể mô phỏng hơn 500 triệu năm tiến hóa tự nhiên trong một thời gian ngắn.