Googles Titan Architektur durchbricht Transformer Speicherengpässe

Einführung in Titan: Eine neue Architektur von Google

Die Tech-Welt ist begeistert von Titan, einer neuartigen Architektur, die von Google entwickelt wurde. Sie zielt darauf ab, die Grenzen von Transformer-Modellen, insbesondere in Bezug auf die Speicherverwaltung, herauszufordern. Diese neue Architektur erregt große Aufmerksamkeit als potenzieller Nachfolger des Transformers, insbesondere angesichts ihrer Entwicklung durch ein Team bei Google.

Die Speicherherausforderung bei bestehenden Modellen

Traditionelle Modelle wie LSTM und Transformer stehen trotz ihrer Innovationen vor Herausforderungen bei der Simulation menschenähnlichen Gedächtnisses. Diese Herausforderungen umfassen:

Begrenzte Kapazität: Daten werden oft in einen Hidden State mit fester Größe komprimiert, was die Menge an Informationen, die gespeichert werden können, einschränkt.
Rechnerischer Overhead: Obwohl diese Modelle in der Lage sind, Abhängigkeiten über lange Strecken zu erfassen, steigen die Rechenkosten quadratisch mit der Sequenzlänge, was sie für sehr lange Sequenzen ineffizient macht.
Übermäßige Abhängigkeit von Trainingsdaten: Das bloße Auswendiglernen von Trainingsdaten hilft nicht immer bei der Anwendung in der realen Welt, wo Testdaten außerhalb der Trainingsverteilung liegen können.

Titans Ansatz: Ein neuro-inspiriertes Speichermodul

Das Titan-Team verfolgt einen anderen Ansatz und versucht, Informationen in den Parametern eines neuronalen Netzwerks zu kodieren. Sie haben ein Online-Meta-Modell entwickelt, das lernen soll, wie man während des Testens spezifische Daten erinnert und vergisst. Dieses Modell ist von neuropsychologischen Prinzipien inspiriert und enthält die folgenden Schlüsselelemente:

Überraschung als Auslöser: Unerwartete Ereignisse werden leichter erinnert. Die "Überraschung" wird durch den Gradienten des Inputs zum Speichermodul gemessen. Je größer der Gradient, desto unerwarteter der Input.
Momentum- und Vergessensmechanismen: Ein Momentum-Mechanismus akkumuliert kurzfristige Überraschungen im Langzeitgedächtnis, während ein Vergessensmechanismus alte Erinnerungen löscht und so einen Speicherüberlauf verhindert.
Multi-Layer Perceptron (MLP)-basiertes Gedächtnis: Das Speichermodul besteht aus mehreren MLP-Schichten, die es ermöglichen, tiefe Abstraktionen von Daten zu speichern, was es leistungsfähiger macht als herkömmliche matrixbasierte Speicher.

Dieser Online-Meta-Lernansatz hilft dem Modell, sich darauf zu konzentrieren, wie man sich an neue Daten anpasst, anstatt nur Trainingsdaten auswendig zu lernen. Das Modul ist auch für parallele Berechnungen ausgelegt, was seine Effizienz erhöht.

Integration des Speichermoduls in Deep-Learning-Architekturen

Das Titan-Forschungsteam schlug drei Varianten für die Integration ihres Speichermoduls in Deep-Learning-Architekturen vor:

MAC (Memory as Context): Diese Methode kombiniert langfristigen und persistenten Speicher (der Aufgabenwissen kodiert) als Kontext, der dem Aufmerksamkeitsmechanismus zugeführt wird.
MAG (Memory as Gate): Dieser Ansatz verwendet eine Gated Fusion des Speichermoduls mit einem Sliding-Window-Aufmerksamkeitsmechanismus über zwei Zweige.
MAL (Memory as Layer): Hier wird das Speichermodul als unabhängige Schicht implementiert, die historische Informationen komprimiert, bevor sie dem Aufmerksamkeitsmechanismus zugeführt werden.

Das Team stellte fest, dass jede Variante ihre Stärken und Schwächen hat.

Leistung und Vorteile von Titan

Titan hat in einer Vielzahl von Aufgaben, darunter Sprachmodellierung, Common-Sense-Reasoning und Zeitreihenvorhersage, eine überlegene Leistung gezeigt. Es hat hochmoderne Modelle wie Transformer und Mamba übertroffen. Insbesondere hat das Langzeitgedächtnismodul (LMM) allein in mehreren Aufgaben bessere Ergebnisse erzielt als Basismodelle, was seine unabhängigen Lernfähigkeiten ohne Kurzzeitgedächtnis (Aufmerksamkeit) unter Beweis stellt.

In einem "Nadel im Heuhaufen"-Test, der darauf ausgelegt war, feine Hinweise in langen Texten zu finden, behielt Titan eine Genauigkeit von etwa 90 %, selbst wenn die Sequenzlängen von 2.000 auf 16.000 stiegen. Das Team gibt an, dass die Standardtests die Vorteile von Titan bei der Verarbeitung langer Texte nicht vollständig zeigen. Titan übertraf auch Modelle wie GPT4, Mamba und sogar Llama3.1 mit RAG in einer Aufgabe, die Rückschlüsse aus Fakten erforderte, die über extrem lange Dokumente verteilt waren.

Titan hat auch in bestimmten Bereichen wie der Zeitreihenvorhersage und der DNA-Sequenzmodellierung eine beeindruckende Leistung gezeigt.

Das Team hinter Titan

Die Forschung wurde von einem Team der Google Research NYC Algorithmen- und Optimierungsgruppe durchgeführt, das derzeit nicht Teil von Google DeepMind ist.

Ali Behrouz, ein Praktikant der Cornell University, ist der Erstautor des Artikels.

Zhong Peilin, ein Absolvent der Tsinghua University und ein Ph.D.-Absolvent der Columbia University, ist seit 2021 Forschungswissenschaftler bei Google. Er ist bekannt dafür, dass er als Student 2016 einen Erstautor-Artikel bei STOC veröffentlicht hat.

Vahab Mirrokni, ein Google Fellow und VP, leitet das Team.

Das Team entwickelte Titan mit Pytorch und Jax und plant, den Code für Training und Evaluierung bald zu veröffentlichen.