Published on

Evolutionaryscale ESM3: Revolutionäre Proteinforschung mit freier API

Autoren
  • avatar
    Name
    Ajax
    Twitter

ESM3: Ein Sprung in der Proteinforschung

Evolutionaryscale hat letztes Jahr am 25. Juni ESM3 vorgestellt, ein bahnbrechendes biologisches Modell mit 98 Milliarden Parametern. Dies macht es zum größten seiner Art weltweit und stellt einen bedeutenden Fortschritt im Verständnis und der Manipulation von Proteinen dar.

ESM3 arbeitet, indem es die dreidimensionale Struktur und Funktion von Proteinen in ein diskretes Alphabet umwandelt. Dieser innovative Ansatz ermöglicht es, jede 3D-Struktur als eine Buchstabenfolge darzustellen. Dadurch kann ESM3 gleichzeitig die Sequenz, Struktur und Funktion eines Proteins verarbeiten und auf komplexe Anfragen reagieren, die atomare Details mit übergeordneten Anweisungen kombinieren, um völlig neue Proteine zu generieren. Beeindruckend ist, dass ESM3 die Evolution in einem Umfang von 5 Billionen Jahren natürlicher Evolution simuliert.

Freier API-Zugang und Expertenunterstützung

Die wissenschaftliche und pharmazeutische Gemeinschaft war begeistert, als ESM3 erstmals vorgestellt wurde. Vor kurzem, um 4 Uhr morgens, gab Evolutionaryscale die kostenlose Verfügbarkeit der ESM3-API bekannt, um die Proteinvorhersage für Wissenschaftler weltweit zu beschleunigen.

Dieser Schritt wurde von dem Turing-Award-Gewinner und Meta's Chief Scientist, Yann LeCun, mit Begeisterung aufgenommen, der die Leistung von Evolutionaryscale als "eine sehr coole Sache" lobte.

Als Journalist, der seit vielen Jahren über KI berichtet, glaube ich, dass dies ein wegweisender Moment ist. ESM3 ist mehr als nur ein Modell; es ist ein Durchbruch im Verständnis und der Generierung von Proteinen auf atomarer Ebene, der einen tiefgreifenden Einfluss auf den medizinischen Bereich verspricht.

ESM3's Rechenleistung und Kernfähigkeiten

ESM3 wurde auf einem der leistungsstärksten GPU-Cluster weltweit trainiert, mit über 1x10^24 FLOPS an Rechenleistung und 98 Milliarden Parametern. Dies stellt die bisher größte Investition in das Training eines biologischen Modells dar.

Die Kernstärke des Modells liegt in seiner Fähigkeit, gleichzeitig die Sequenz, Struktur und Funktion von Proteinen zu verarbeiten, was für das Verständnis ihrer Funktionsweise unerlässlich ist. Dies wird durch die Umwandlung von 3D-Strukturen und Funktionen in ein diskretes Alphabet erreicht, das ein groß angelegtes Training und die Erschließung neuer generativer Fähigkeiten ermöglicht.

  • Multimodaler Ansatz: ESM3 verwendet einen multimodalen Ansatz, der es ermöglicht, tiefe Verbindungen zwischen Sequenz, Struktur und Funktion aus einer evolutionären Perspektive zu lernen.
  • Masked Language Modeling: Während des Trainings verwendet ESM3 ein Masked Language Modeling-Ziel. Es maskiert teilweise die Sequenz, Struktur und Funktion von Proteinen und sagt dann die maskierten Teile voraus. Dies zwingt das Modell, die Beziehungen zwischen diesen Elementen tiefgreifend zu verstehen und die Evolution in einem Umfang von Milliarden von Proteinen und Parametern zu simulieren.

Generierung neuartiger Proteine und reale Anwendungen

ESM3's multimodale Argumentation ermöglicht es, neue Proteine mit beispielloser Präzision zu generieren. Wissenschaftler können ESM3 beispielsweise anweisen, Proteingerüste mit spezifischen aktiven Zentren zu erstellen, indem sie strukturelle, sequenzielle und funktionelle Anforderungen kombinieren. Diese Fähigkeit hat ein erhebliches Potenzial im Protein-Engineering, insbesondere bei der Entwicklung von Enzymen für Aufgaben wie den Abbau von Plastikmüll.

Ein wesentliches Merkmal von ESM3 ist seine Skalierbarkeit, die seine Problemlösungsfähigkeit mit dem Wachstum des Modells verbessert. Darüber hinaus kann sich ESM3 durch Selbstfeedback und Labordaten selbst verbessern und die Qualität seiner generierten Proteine erhöhen.

In realen Anwendungen hat ESM3 bereits beeindruckende Fähigkeiten gezeigt. Beispielsweise wurde erfolgreich ein neues grün fluoreszierendes Protein (esmGFP) mit nur 58% Sequenzähnlichkeit zu bekannten fluoreszierenden Proteinen generiert.

esmGFP-Durchbruch

Experimentelle Ergebnisse zeigen, dass die Helligkeit von esmGFP mit der von natürlichem GFP vergleichbar ist. Sein evolutionärer Pfad unterscheidet sich jedoch von der natürlichen Evolution und zeigt, dass ESM3 mehr als 500 Millionen Jahre natürlicher Evolution in kurzer Zeit simulieren kann.