Google's Titan Architectuur Doorbreekt Transformer Geheugen Bottleneck

Introductie van Titan: Een Nieuwe Architectuur van Google

De techwereld is in de ban van Titan, een nieuwe architectuur die voortkomt uit Google. Het is ontworpen om de beperkingen van Transformer modellen uit te dagen, vooral in hoe ze met geheugen omgaan. Deze nieuwe architectuur krijgt veel aandacht als een mogelijke opvolger van de Transformer, vooral gezien de ontwikkeling door een team binnen Google.

De Geheugen Uitdaging in Bestaande Modellen

Traditionele modellen zoals LSTM en Transformer, hoewel innovatief, staan voor uitdagingen bij het simuleren van mensachtig geheugen. Deze uitdagingen omvatten:

Beperkte Capaciteit: Data wordt vaak gecomprimeerd in een verborgen staat van vaste grootte, wat de hoeveelheid informatie die kan worden behouden beperkt.
Computationele Overhead: Hoewel ze in staat zijn om lange-afstandsafhankelijkheden vast te leggen, nemen de computationele kosten kwadratisch toe met de sequentiële lengte, waardoor het inefficiënt is voor zeer lange sequenties.
Overmatige Afhankelijkheid van Trainingsdata: Het simpelweg onthouden van trainingsdata helpt niet altijd bij toepassingen in de echte wereld, waar testdata buiten de trainingsdistributie kunnen vallen.

Titan's Aanpak: Een Neuro-Geïnspireerde Geheugenmodule

Het Titan team heeft een andere aanpak gekozen, door informatie te proberen coderen in de parameters van een neuraal netwerk. Ze hebben een online meta-model ontwikkeld dat is ontworpen om te leren hoe specifieke data te onthouden en te vergeten tijdens het testen. Dit model is geïnspireerd op neuropsychologische principes, met de volgende belangrijke elementen:

Verrassing als Trigger: Onverwachte gebeurtenissen worden gemakkelijker onthouden. De 'verrassing' wordt gemeten door de gradiënt van de input naar de geheugenmodule. Hoe groter de gradiënt, hoe onverwachts de input.
Momentum en Vergeetmechanismen: Een momentummechanisme verzamelt korte termijn verrassingen in lange termijn geheugen, terwijl een vergeetmechanisme oude herinneringen wist, waardoor geheugenoverloop wordt voorkomen.
Multi-Layer Perceptron (MLP) Gebaseerd Geheugen: De geheugenmodule is samengesteld uit meerdere MLP lagen, waardoor het diepe abstracties van data kan opslaan, waardoor het krachtiger is dan traditionele matrix-gebaseerde geheugens.

Deze online meta-leer aanpak helpt het model zich te richten op het leren aanpassen aan nieuwe data, in plaats van alleen maar trainingsdata te onthouden. De module is ook ontworpen voor parallelle berekening, waardoor de efficiëntie wordt verhoogd.

Integratie van de Geheugenmodule in Deep Learning Architecturen

Het Titans onderzoeksteam heeft drie variaties voorgesteld voor het integreren van hun geheugenmodule in deep learning architecturen:

MAC (Geheugen als Context): Deze methode combineert lange termijn en persistent geheugen (dat taakkennis codeert) als context die wordt ingevoerd in het aandachtmechanisme.
MAG (Geheugen als Poort): Deze aanpak gebruikt gated fusion van de geheugenmodule met een sliding window aandachtmechanisme over twee takken.
MAL (Geheugen als Laag): Hier wordt de geheugenmodule geïmplementeerd als een onafhankelijke laag die historische informatie comprimeert voordat deze naar het aandachtmechanisme wordt gevoerd.

Het team ontdekte dat elke variatie zijn sterke en zwakke punten heeft.

Prestaties en Voordelen van Titans

Titans heeft superieure prestaties geleverd bij verschillende taken, waaronder taalmodellering, gezond verstand redeneren en tijdreeksvoorspelling. Het heeft state-of-the-art modellen zoals Transformer en Mamba overtroffen. Met name de lange-termijn geheugenmodule (LMM) alleen al heeft beter gepresteerd dan baseline modellen in verschillende taken, wat zijn onafhankelijke leercapaciteiten laat zien zonder korte-termijn geheugen (aandacht).

In een "naald in een hooiberg" test ontworpen om fijne aanwijzingen in lange teksten te vinden, behield Titans ongeveer 90% nauwkeurigheid, zelfs als de sequentiële lengtes toenamen van 2k tot 16k. Het team geeft aan dat de standaardtests niet volledig de voordelen van Titans bij het verwerken van lange teksten laten zien. Titans presteerde ook beter dan modellen zoals GPT4, Mamba en zelfs Llama3.1 met RAG in een taak die inferentie vereiste van feiten die over extreem lange documenten waren verspreid.

Titans heeft ook indrukwekkende prestaties laten zien op specifieke gebieden zoals tijdreeksvoorspelling en DNA sequentiemodellering.

Het Team Achter Titans

Het onderzoek werd uitgevoerd door een team van Google Research NYC algoritmen en optimalisatie groep, die momenteel geen deel uitmaakt van Google DeepMind.

Ali Behrouz, een stagiair aan de Cornell University, is de eerste auteur van het paper.
Zhong Peilin, een alumnus van de Tsinghua University en een Ph.D. afgestudeerde van Columbia University, is sinds 2021 onderzoeker bij Google. Hij is opmerkelijk omdat hij als student een paper als eerste auteur publiceerde op STOC 2016.
Vahab Mirrokni, een Google Fellow en VP, leidt het team.

Het team ontwikkelde Titans met behulp van Pytorch en Jax en is van plan de code voor training en evaluatie binnenkort vrij te geven.