- Published on
ESM3 di Evolutionaryscale: Un Salto Nella Ricerca Proteica
ESM3: Un Modello Rivoluzionario per le Proteine
Lo scorso anno, il 25 giugno, Evolutionaryscale ha presentato ESM3, un modello biologico innovativo con 98 miliardi di parametri, il più grande del suo genere a livello globale. Questo modello rappresenta un progresso significativo nel modo in cui comprendiamo e manipoliamo le proteine.
ESM3 opera trasformando la struttura tridimensionale e la funzione delle proteine in un alfabeto discreto. Questo approccio innovativo consente di rappresentare ogni struttura 3D come una sequenza di lettere. Di conseguenza, ESM3 può elaborare simultaneamente la sequenza, la struttura e la funzione di una proteina, rispondendo a complesse richieste che combinano dettagli a livello atomico con istruzioni di alto livello per generare proteine completamente nuove. Sorprendentemente, la simulazione dell'evoluzione di ESM3 è paragonabile a 5 trilioni di anni di evoluzione naturale.
Accesso Gratuito all'API e Approvazione di Esperti
Le comunità scientifiche e farmaceutiche erano in fermento quando ESM3 fu introdotto per la prima volta. Recentemente, alle 4 del mattino, Evolutionaryscale ha annunciato la disponibilità gratuita dell'API di ESM3, con l'obiettivo di accelerare la previsione delle proteine per gli scienziati di tutto il mondo.
Questa mossa è stata accolta con entusiasmo dal vincitore del premio Turing e capo scienziato di Meta, Yann LeCun, che ha lodato il risultato di Evolutionaryscale definendolo "una cosa molto interessante".
Come giornalista che si occupa di AI da molti anni, credo che questo sia un momento storico. ESM3 è più di un semplice modello; è una svolta nella comprensione e generazione di proteine a livello atomico, che promette un profondo impatto sul campo medico.
La Potenza Computazionale e le Capacità di Base di ESM3
ESM3 è stato addestrato su uno dei cluster GPU più potenti a livello globale, utilizzando oltre 1x10^24 FLOPS di potenza di calcolo e 98 miliardi di parametri. Questo rappresenta il più grande investimento computazionale nell'addestramento di modelli biologici fino ad oggi.
Il punto di forza del modello risiede nella sua capacità di elaborare simultaneamente la sequenza, la struttura e la funzione delle proteine, attributi essenziali per comprenderne il funzionamento. Ciò si ottiene convertendo le strutture 3D e le funzioni in un alfabeto discreto, consentendo un addestramento su larga scala e sbloccando nuove capacità generative.
- Approccio Multimodale: ESM3 impiega un approccio multimodale, che gli consente di apprendere connessioni profonde tra sequenza, struttura e funzione da una prospettiva evolutiva.
- Masked Language Modeling: Durante l'addestramento, ESM3 utilizza un obiettivo di masked language modeling. Maschera parzialmente la sequenza, la struttura e la funzione delle proteine e quindi prevede le parti mascherate. Ciò costringe il modello a comprendere profondamente le relazioni tra questi elementi, simulando l'evoluzione su una scala di miliardi di proteine e parametri.
Generazione di Nuove Proteine e Applicazioni nel Mondo Reale
Il ragionamento multimodale di ESM3 gli consente di generare nuove proteine con una precisione senza precedenti. Ad esempio, gli scienziati possono indirizzare ESM3 a creare impalcature proteiche con siti attivi specifici combinando requisiti strutturali, di sequenza e funzionali. Questa capacità ha un potenziale significativo nell'ingegneria proteica, in particolare nella progettazione di enzimi per compiti come la scomposizione dei rifiuti di plastica.
Una caratteristica chiave di ESM3 è la sua capacità di scalare, migliorando la sua capacità di risoluzione dei problemi man mano che il modello cresce. Inoltre, ESM3 può migliorarsi attraverso l'auto-feedback e i dati di laboratorio, migliorando la qualità delle proteine generate.
Nelle applicazioni del mondo reale, ESM3 ha già dimostrato capacità impressionanti. Ad esempio, ha generato con successo una nuova proteina fluorescente verde (esmGFP) con solo il 58% di somiglianza di sequenza con le proteine fluorescenti note.
Svolta di esmGFP: I risultati sperimentali mostrano che la luminosità di esmGFP è paragonabile alla GFP naturale. Tuttavia, il suo percorso evolutivo differisce dall'evoluzione naturale, dimostrando che ESM3 può simulare più di 500 milioni di anni di evoluzione naturale in breve tempo.