Published on

ESM3 Przełom w Badaniach Białek Symuluje 500 Milionów Lat Ewolucji Darmowe API i Poparcie Yanna LeCuna

Autorzy
  • avatar
    Imię
    Ajax
    Twitter

ESM3: Skok w Badaniach Białek

W zeszłym roku, 25 czerwca, Evolutionaryscale zaprezentowało ESM3, przełomowy model biologiczny z 98 miliardami parametrów. Jest to największy model tego typu na świecie. Ten model stanowi znaczący postęp w sposobie, w jaki rozumiemy i manipulujemy białkami.

ESM3 działa poprzez przekształcenie trójwymiarowej struktury i funkcji białek w dyskretny alfabet. To innowacyjne podejście pozwala na reprezentowanie każdej struktury 3D jako sekwencji liter. W konsekwencji ESM3 może jednocześnie przetwarzać sekwencję, strukturę i funkcję białka, reagując na złożone polecenia, które łączą szczegóły na poziomie atomowym z instrukcjami wysokiego poziomu, aby generować zupełnie nowe białka. Co imponujące, symulacja ewolucji w ESM3 jest porównywalna z 5 bilionami lat naturalnej ewolucji.

Bezpłatny Dostęp do API i Poparcie Ekspertów

Społeczności naukowe i farmaceutyczne były podekscytowane, gdy ESM3 został po raz pierwszy wprowadzony. Niedawno, o 4 nad ranem, Evolutionaryscale ogłosiło bezpłatną dostępność API ESM3, mając na celu przyspieszenie przewidywania białek dla naukowców na całym świecie.

Ten ruch spotkał się z entuzjazmem laureata Nagrody Turinga i głównego naukowca Meta, Yanna LeCuna, który pochwalił osiągnięcie Evolutionaryscale jako "bardzo fajną rzecz".

Jako dziennikarz zajmujący się AI od wielu lat, uważam to za przełomowy moment. ESM3 to więcej niż tylko model; to przełom w zrozumieniu i generowaniu białek na poziomie atomowym, który obiecuje ogromny wpływ na medycynę.

Moc Obliczeniowa i Główne Możliwości ESM3

  • ESM3 został przeszkolony na jednym z najpotężniejszych klastrów GPU na świecie, wykorzystując ponad 1x10^24 FLOPS mocy obliczeniowej i 98 miliardów parametrów. Jest to największa inwestycja obliczeniowa w szkolenie modelu biologicznego do tej pory.
  • Główną siłą modelu jest jego zdolność do jednoczesnego przetwarzania sekwencji, struktury i funkcji białek, co jest niezbędne do zrozumienia ich działania. Osiąga się to poprzez konwersję struktur 3D i funkcji w dyskretny alfabet, umożliwiając szkolenie na dużą skalę i odblokowując nowe możliwości generatywne.
  • Podejście multimodalne: ESM3 stosuje podejście multimodalne, umożliwiając mu uczenie się głębokich połączeń między sekwencją, strukturą i funkcją z perspektywy ewolucyjnej.
  • Masked Language Modeling: Podczas szkolenia ESM3 wykorzystuje cel maskowanego modelowania języka. Częściowo maskuje sekwencję, strukturę i funkcję białek, a następnie przewiduje zamaskowane części. To zmusza model do głębokiego zrozumienia relacji między tymi elementami, symulując ewolucję w skali miliardów białek i parametrów.

Generowanie Nowych Białek i Zastosowania w Świecie Rzeczywistym

  • Multimodalne rozumowanie ESM3 pozwala mu generować nowe białka z niespotykaną dotąd precyzją. Na przykład, naukowcy mogą kierować ESM3 do tworzenia rusztowań białkowych z określonymi miejscami aktywnymi, łącząc wymagania strukturalne, sekwencyjne i funkcjonalne. Ta zdolność ma znaczący potencjał w inżynierii białek, szczególnie w projektowaniu enzymów do zadań takich jak rozkład odpadów z tworzyw sztucznych.
  • Kluczową cechą ESM3 jest jego zdolność do skalowania, poprawiająca jego zdolność rozwiązywania problemów w miarę wzrostu modelu. Ponadto ESM3 może ulepszać się poprzez samo-informację zwrotną i dane laboratoryjne, poprawiając jakość generowanych białek.
  • W zastosowaniach w świecie rzeczywistym ESM3 wykazał już imponujące możliwości. Na przykład, z powodzeniem wygenerował nowe zielone białko fluorescencyjne (esmGFP) z tylko 58% podobieństwem sekwencji do znanych białek fluorescencyjnych.
  • Przełom esmGFP: Wyniki eksperymentalne pokazują, że jasność esmGFP jest porównywalna z naturalnym GFP. Jednak jego ścieżka ewolucyjna różni się od naturalnej ewolucji, co pokazuje, że ESM3 może symulować ponad 500 milionów lat naturalnej ewolucji w krótkim czasie.