L'architecture Titan de Google Révolutionne la Gestion de la Mémoire des Transformeurs

Introduction à Titan : Une Nouvelle Architecture de Google

Le monde de la technologie est en effervescence à propos de Titan, une architecture inédite émanant de Google. Elle est conçue pour défier les limitations des modèles Transformer, particulièrement dans leur gestion de la mémoire. Cette nouvelle architecture attire une attention considérable en tant que successeur potentiel du Transformer, d'autant plus qu'elle est développée par une équipe au sein de Google.

Le Défi de la Mémoire dans les Modèles Existants

Les modèles traditionnels comme LSTM et Transformer, bien qu'innovants, rencontrent des difficultés pour simuler une mémoire de type humaine. Ces défis incluent :

Capacité Limitée : Les données sont souvent compressées dans un état caché de taille fixe, ce qui restreint la quantité d'informations pouvant être retenue.
Surcharge Computationnelle : Bien que capables de capturer des dépendances à longue portée, le coût computationnel augmente de manière quadratique avec la longueur de la séquence, ce qui la rend inefficace pour des séquences très longues.
Dépendance Excessive aux Données d'Entraînement : La simple mémorisation des données d'entraînement n'est pas toujours utile pour les applications du monde réel, où les données de test peuvent être en dehors de la distribution d'entraînement.

L'Approche de Titan : Un Module de Mémoire d'Inspiration Neuro

L'équipe Titan a adopté une approche différente, cherchant à encoder l'information dans les paramètres d'un réseau neuronal. Ils ont développé un méta-modèle en ligne conçu pour apprendre à se souvenir et à oublier des données spécifiques pendant les tests. Ce modèle s'inspire des principes neuro-psychologiques, incorporant les éléments clés suivants :

La Surprise comme Déclencheur : Les événements inattendus sont plus facilement mémorisés. La "surprise" est mesurée par le gradient de l'entrée vers le module de mémoire. Plus le gradient est important, plus l'entrée est inattendue.
Mécanismes d'Élan et d'Oubli : Un mécanisme d'élan accumule les surprises à court terme dans la mémoire à long terme, tandis qu'un mécanisme d'oubli efface les anciens souvenirs, empêchant la surcharge de la mémoire.
Mémoire Basée sur le Perceptron Multi-Couches (MLP) : Le module de mémoire est composé de plusieurs couches MLP, ce qui lui permet de stocker des abstractions profondes des données, le rendant plus puissant que les mémoires traditionnelles basées sur des matrices.

Cette approche d'apprentissage méta en ligne aide le modèle à se concentrer sur l'apprentissage de l'adaptation à de nouvelles données, plutôt que de simplement mémoriser les données d'entraînement. Le module est également conçu pour le calcul parallèle, améliorant son efficacité.

Intégration du Module de Mémoire dans les Architectures d'Apprentissage Profond

L'équipe de recherche de Titans a proposé trois variations pour l'incorporation de leur module de mémoire dans les architectures d'apprentissage profond :

MAC (Memory as Context) : Cette méthode combine la mémoire à long terme et persistante (qui encode la connaissance de la tâche) comme contexte qui est introduit dans le mécanisme d'attention.
MAG (Memory as Gate) : Cette approche utilise la fusion contrôlée du module de mémoire avec un mécanisme d'attention à fenêtre glissante sur deux branches.
MAL (Memory as Layer) : Ici, le module de mémoire est implémenté comme une couche indépendante qui compresse les informations historiques avant de les transmettre au mécanisme d'attention.

L'équipe a constaté que chaque variation a ses forces et ses faiblesses.

Performances et Avantages de Titan

Titan a démontré des performances supérieures dans une variété de tâches, y compris la modélisation linguistique, le raisonnement de bon sens et la prédiction de séries temporelles. Il a surpassé les modèles de pointe tels que Transformer et Mamba. Notamment, le module de mémoire à long terme (LMM) seul a surperformé les modèles de base dans plusieurs tâches, mettant en évidence ses capacités d'apprentissage indépendant sans mémoire à court terme (attention).

Dans un test de "l'aiguille dans une botte de foin" conçu pour trouver des indices fins dans de longs textes, Titan a maintenu une précision d'environ 90 % même lorsque les longueurs de séquence augmentaient de 2k à 16k. L'équipe indique que les tests standard n'exposent pas pleinement les avantages de Titan dans la gestion des longs textes. Titan a également surpassé des modèles comme GPT4, Mamba, et même Llama3.1 avec RAG dans une tâche nécessitant une inférence à partir de faits répartis dans des documents extrêmement longs.

Titan a également montré des performances impressionnantes dans des domaines spécifiques tels que la prédiction de séries temporelles et la modélisation de séquences d'ADN.

L'Équipe Derrière Titan

La recherche a été menée par une équipe du groupe algorithmes et optimisation de Google Research NYC, qui ne fait pas actuellement partie de Google DeepMind.

Ali Behrouz, un stagiaire de l'Université Cornell, est le premier auteur de l'article.
Zhong Peilin, un ancien élève de l'Université Tsinghua et un doctorant diplômé de l'Université Columbia, est chercheur scientifique chez Google depuis 2021. Il est notamment connu pour avoir publié un article en tant que premier auteur à STOC 2016 en tant qu'étudiant de premier cycle.
Vahab Mirrokni, Google Fellow et VP, dirige l'équipe.

L'équipe a développé Titan en utilisant Pytorch et Jax et prévoit de publier prochainement le code pour la formation et l'évaluation.