L'Architettura Titan di Google Rivoluziona la Gestione della Memoria dei Transformer

Introduzione a Titan: Una Nuova Architettura di Google

Il mondo della tecnologia è in fermento per Titan, una nuova architettura emergente da Google. È progettata per sfidare i limiti dei modelli Transformer, in particolare nel modo in cui gestiscono la memoria. Questa nuova architettura sta guadagnando notevole attenzione come potenziale successore del Transformer, soprattutto considerando il suo sviluppo da parte di un team interno a Google.

La Sfida della Memoria nei Modelli Esistenti

I modelli tradizionali come LSTM e Transformer, pur essendo innovativi, affrontano sfide nella simulazione della memoria simile a quella umana. Queste sfide includono:

Capacità Limitata: I dati vengono spesso compressi in uno stato nascosto di dimensioni fisse, limitando la quantità di informazioni che possono essere trattenute.
Sovraccarico Computazionale: Pur essendo in grado di catturare dipendenze a lungo raggio, il costo computazionale aumenta quadraticamente con la lunghezza della sequenza, rendendolo inefficiente per sequenze molto lunghe.
Eccessiva Dipendenza dai Dati di Addestramento: La semplice memorizzazione dei dati di addestramento non sempre aiuta con l'applicazione nel mondo reale, dove i dati di test possono non rientrare nella distribuzione di addestramento.

L'Approccio di Titan: Un Modulo di Memoria di Ispirazione Neuro-Psicologica

Il team di Titan ha adottato un approccio diverso, cercando di codificare le informazioni nei parametri di una rete neurale. Hanno sviluppato un meta-modello online progettato per imparare come ricordare e dimenticare dati specifici durante i test. Questo modello si ispira a principi neuro-psicologici, incorporando i seguenti elementi chiave:

Sorpresa come Trigger: Gli eventi inaspettati vengono ricordati più facilmente. La "sorpresa" viene misurata dal gradiente dell'input al modulo di memoria. Maggiore è il gradiente, più inaspettato è l'input.
Meccanismi di Momentum e Dimenticanza: Un meccanismo di momentum accumula le sorprese a breve termine nella memoria a lungo termine, mentre un meccanismo di dimenticanza cancella i vecchi ricordi, prevenendo il sovraccarico della memoria.
Memoria Basata su Multi-Layer Perceptron (MLP): Il modulo di memoria è composto da più livelli MLP, che gli consentono di memorizzare astrazioni profonde dei dati, rendendolo più potente delle tradizionali memorie basate su matrici.

Questo approccio di meta-apprendimento online aiuta il modello a concentrarsi sull'apprendimento di come adattarsi a nuovi dati, piuttosto che limitarsi a memorizzare i dati di addestramento. Il modulo è anche progettato per il calcolo parallelo, migliorandone l'efficienza.

Integrazione del Modulo di Memoria nelle Architetture di Deep Learning

Il team di ricerca di Titan ha proposto tre variazioni per l'incorporazione del loro modulo di memoria nelle architetture di deep learning:

MAC (Memoria come Contesto): Questo metodo combina la memoria a lungo termine e persistente (che codifica la conoscenza del compito) come contesto che viene immesso nel meccanismo di attenzione.
MAG (Memoria come Gate): Questo approccio utilizza la fusione gated del modulo di memoria con un meccanismo di attenzione a finestra scorrevole attraverso due rami.
MAL (Memoria come Livello): Qui, il modulo di memoria viene implementato come un livello indipendente che comprime le informazioni storiche prima di alimentarle al meccanismo di attenzione.

Il team ha scoperto che ogni variazione ha i suoi punti di forza e di debolezza.

Prestazioni e Vantaggi di Titan

Titan ha dimostrato prestazioni superiori in una varietà di compiti, tra cui la modellazione del linguaggio, il ragionamento di buon senso e la previsione di serie temporali. Ha superato modelli all'avanguardia come Transformer e Mamba. In particolare, il modulo di memoria a lungo termine (LMM) da solo ha superato i modelli di base in diversi compiti, dimostrando le sue capacità di apprendimento indipendente senza memoria a breve termine (attenzione).

In un test "ago nel pagliaio" progettato per trovare indizi precisi in testi lunghi, Titan ha mantenuto una precisione di circa il 90% anche quando la lunghezza della sequenza è aumentata da 2k a 16k. Il team indica che i test standard non mostrano appieno i vantaggi di Titan nella gestione di testi lunghi. Titan ha anche superato modelli come GPT4, Mamba e persino Llama3.1 con RAG in un compito che richiedeva l'inferenza da fatti distribuiti in documenti estremamente lunghi.

Titan ha mostrato prestazioni impressionanti anche in aree specifiche come la previsione di serie temporali e la modellazione di sequenze di DNA.

Il Team Dietro Titan

La ricerca è stata condotta da un team del gruppo di algoritmi e ottimizzazione di Google Research NYC, attualmente non facente parte di Google DeepMind.

Ali Behrouz, uno stagista della Cornell University, è il primo autore del documento.
Zhong Peilin, un alunno della Tsinghua University e dottorato di ricerca presso la Columbia University, è uno scienziato ricercatore presso Google dal 2021. È noto per aver pubblicato un documento come primo autore allo STOC 2016 come studente universitario.
Vahab Mirrokni, Google Fellow e VP, guida il team.

Il team ha sviluppato Titan utilizzando Pytorch e Jax e prevede di rilasciare presto il codice per l'addestramento e la valutazione.