Published on

ESM3 скок в протеиновите изследвания безплатен API и одобрение от Ян ЛеКун

Автори
  • avatar
    Име
    Ajax
    Twitter

Въведение в ESM3

ESM3, представен от Evolutionaryscale, е новаторски биологичен модел с 98 милиарда параметри, което го прави най-големият по рода си в света. Този модел бележи значителен напредък в разбирането и манипулирането на протеини. Той трансформира триизмерната структура и функция на протеините в дискретна азбука, позволявайки на всяка 3D структура да бъде представена като последователност от букви.

Функционалност на ESM3

ESM3 може едновременно да обработва последователността, структурата и функцията на протеините. Моделът отговаря на сложни заявки, които комбинират детайли на атомно ниво с инструкции на високо ниво, за да генерира изцяло нови протеини. Симулацията на еволюция, предоставена от ESM3, е сравнима с 5 трилиона години естествена еволюция.

Безплатен API и експертна подкрепа

Научната и фармацевтичната общност бяха развълнувани от първоначалното представяне на ESM3. Evolutionaryscale обяви безплатната достъпност на ESM3 API, целяйки да ускори предсказването на протеини за учени по целия свят. Този ход беше посрещнат с ентусиазъм от носителя на наградата 'Turing' и главен учен на Meta, Ян ЛеКун, който похвали постижението на Evolutionaryscale като 'много готино нещо'. ESM3 е повече от модел; това е пробив в разбирането и генерирането на протеини на атомно ниво, което обещава дълбоко въздействие върху медицинската област.

Изчислителна мощ и основни възможности на ESM3

ESM3 беше обучен на един от най-мощните GPU клъстери в света, използвайки над 1x10^24 FLOPS изчислителна мощ и 98 милиарда параметри. Това представлява най-голямата инвестиция в обучението на биологичен модел до момента. Основната сила на модела се крие в способността му едновременно да обработва последователността, структурата и функцията на протеините, което е от съществено значение за разбирането на тяхната работа. Това се постига чрез преобразуване на 3D структури и функции в дискретна азбука, което позволява мащабно обучение и отключва нови генеративни възможности.

Мултимодален подход и маскирано езиково моделиране

  • Мултимодален подход: ESM3 използва мултимодален подход, който му позволява да учи дълбоки връзки между последователността, структурата и функцията от еволюционна перспектива.
  • Маскирано езиково моделиране: По време на обучение ESM3 използва цел за маскирано езиково моделиране. Той частично маскира последователността, структурата и функцията на протеините и след това предсказва маскираните части. Това принуждава модела да разбере дълбоко връзките между тези елементи, симулирайки еволюция в мащаб от милиарди протеини и параметри.

Генериране на нови протеини и реални приложения

Мултимодалните разсъждения на ESM3 му позволяват да генерира нови протеини с безпрецедентна точност. Например, учените могат да насочат ESM3 да създава протеинови скелета със специфични активни места, комбинирайки структурни, последователни и функционални изисквания. Тази способност има значителен потенциал в протеиновото инженерство, особено при проектирането на ензими за задачи като разграждане на пластмасови отпадъци.

Ключова характеристика на ESM3 е способността му да се мащабира, подобрявайки способността му за решаване на проблеми, докато моделът расте. Освен това, ESM3 може да се самоусъвършенства чрез обратна връзка и лабораторни данни, подобрявайки качеството на своите генерирани протеини.

В реални приложения ESM3 вече показа впечатляващи възможности. Например, той успешно генерира нов зелен флуоресцентен протеин (esmGFP) само с 58% сходство на последователността с известни флуоресцентни протеини.

Пробив в esmGFP

Експерименталните резултати показват, че яркостта на esmGFP е сравнима с естествения GFP. Въпреки това, неговият еволюционен път се различава от естествената еволюция, демонстрирайки, че ESM3 може да симулира повече от 500 милиона години естествена еволюция за кратко време.