- Published on
ESM3 Terobosan dalam Penelitian Protein dan Evolusi yang Disimulasikan
ESM3: Lompatan dalam Penelitian Protein
Pada 25 Juni tahun lalu, Evolutionaryscale memperkenalkan ESM3, sebuah model biologis revolusioner dengan 98 miliar parameter. Ini menjadikannya model terbesar di dunia dalam kategorinya. Model ini menandai kemajuan signifikan dalam cara kita memahami dan memanipulasi protein.
ESM3 bekerja dengan mengubah struktur tiga dimensi dan fungsi protein menjadi alfabet diskrit. Pendekatan inovatif ini memungkinkan setiap struktur 3D direpresentasikan sebagai urutan huruf. Akibatnya, ESM3 dapat secara simultan memproses urutan, struktur, dan fungsi protein, menanggapi perintah kompleks yang menggabungkan detail tingkat atom dengan instruksi tingkat tinggi untuk menghasilkan protein yang sepenuhnya baru. Yang mengesankan, simulasi evolusi ESM3 sebanding dengan 5 triliun tahun evolusi alami.
Akses API Gratis dan Dukungan Ahli
Komunitas ilmiah dan farmasi sangat antusias ketika ESM3 pertama kali diperkenalkan. Baru-baru ini, pukul 4 pagi, Evolutionaryscale mengumumkan ketersediaan gratis API ESM3, yang bertujuan untuk mempercepat prediksi protein bagi para ilmuwan di seluruh dunia.
Langkah ini disambut dengan antusiasme dari pemenang Turing Award dan kepala ilmuwan Meta, Yann LeCun, yang memuji pencapaian Evolutionaryscale sebagai "sesuatu yang sangat keren."
Sebagai jurnalis yang meliput AI selama bertahun-tahun, saya percaya ini adalah momen penting. ESM3 lebih dari sekadar model; ini adalah terobosan dalam pemahaman dan pembuatan protein pada tingkat atom, yang menjanjikan dampak besar pada bidang medis.
Kekuatan Komputasi dan Kemampuan Inti ESM3
ESM3 dilatih pada salah satu cluster GPU terkuat di dunia, menggunakan lebih dari 1x10^24 FLOPS daya komputasi dan 98 miliar parameter. Ini merupakan investasi komputasi terbesar dalam pelatihan model biologis hingga saat ini.
Kekuatan inti model ini terletak pada kemampuannya untuk secara simultan memproses urutan, struktur, dan fungsi protein, atribut penting untuk memahami operasinya. Hal ini dicapai dengan mengubah struktur dan fungsi 3D menjadi alfabet diskrit, memungkinkan pelatihan skala besar dan membuka kemampuan generatif baru.
- Pendekatan Multimodal: ESM3 menggunakan pendekatan multimodal, memungkinkannya untuk mempelajari hubungan mendalam antara urutan, struktur, dan fungsi dari perspektif evolusi.
- Pemodelan Bahasa Bertopeng: Selama pelatihan, ESM3 menggunakan tujuan pemodelan bahasa bertopeng. Ini sebagian menutupi urutan, struktur, dan fungsi protein dan kemudian memprediksi bagian yang ditutupi. Ini memaksa model untuk memahami secara mendalam hubungan antara elemen-elemen ini, mensimulasikan evolusi pada skala miliaran protein dan parameter.
Menghasilkan Protein Baru dan Aplikasi Dunia Nyata
Penalaran multimodal ESM3 memungkinkannya untuk menghasilkan protein baru dengan presisi yang belum pernah ada sebelumnya. Misalnya, para ilmuwan dapat mengarahkan ESM3 untuk membuat kerangka protein dengan situs aktif tertentu dengan menggabungkan persyaratan struktural, urutan, dan fungsional. Kemampuan ini memiliki potensi signifikan dalam rekayasa protein, terutama dalam merancang enzim untuk tugas-tugas seperti memecah limbah plastik.
Fitur utama ESM3 adalah kapasitasnya untuk meningkatkan skala, meningkatkan kemampuan pemecahan masalahnya seiring pertumbuhan model. Selain itu, ESM3 dapat meningkatkan dirinya sendiri melalui umpan balik diri dan data laboratorium, meningkatkan kualitas protein yang dihasilkan.
Dalam aplikasi dunia nyata, ESM3 telah menunjukkan kemampuan yang mengesankan. Misalnya, ia berhasil menghasilkan protein fluoresen hijau baru (esmGFP) dengan hanya 58% kesamaan urutan dengan protein fluoresen yang dikenal.
Terobosan esmGFP
Hasil eksperimen menunjukkan bahwa kecerahan esmGFP sebanding dengan GFP alami. Namun, jalur evolusinya berbeda dari evolusi alami, menunjukkan bahwa ESM3 dapat mensimulasikan lebih dari 500 juta tahun evolusi alami dalam waktu singkat.