Architektura Titan od Google przełamuje ograniczenia pamięci Transformerów

Wprowadzenie do Titan: Nowa architektura od Google

Świat technologii z podekscytowaniem mówi o Titan, nowej architekturze wyłaniającej się z Google. Została ona zaprojektowana, aby rzucić wyzwanie ograniczeniom modeli Transformer, szczególnie w sposobie, w jaki radzą sobie z pamięcią. Ta nowa architektura zyskuje znaczną uwagę jako potencjalny następca Transformer, zwłaszcza biorąc pod uwagę jej opracowanie przez zespół w Google.

Wyzwanie Pamięci w Istniejących Modelach

Tradycyjne modele, takie jak LSTM i Transformer, choć innowacyjne, napotykają trudności w symulowaniu pamięci podobnej do ludzkiej. Te wyzwania obejmują:

Ograniczona Pojemność: Dane są często kompresowane do ukrytego stanu o stałym rozmiarze, co ogranicza ilość informacji, która może być zachowana.
Obciążenie Obliczeniowe: Chociaż zdolne do wychwytywania zależności dalekiego zasięgu, koszt obliczeniowy wzrasta kwadratowo wraz z długością sekwencji, co czyni je nieefektywnymi dla bardzo długich sekwencji.
Nadmierne Poleganie na Danych Treningowych: Samo zapamiętywanie danych treningowych nie zawsze pomaga w zastosowaniach w świecie rzeczywistym, gdzie dane testowe mogą wykraczać poza rozkład treningowy.

Podejście Titan: Neuro-Inspirowany Moduł Pamięci

Zespół Titan przyjął inne podejście, starając się zakodować informacje w parametrach sieci neuronowej. Opracowali oni model meta-uczenia online, zaprojektowany do uczenia się, jak zapamiętywać i zapominać konkretne dane podczas testowania. Ten model jest inspirowany zasadami neuro-psychologicznymi, obejmując następujące kluczowe elementy:

Zaskoczenie jako Wyzwalacz: Nieoczekiwane zdarzenia są łatwiej zapamiętywane. "Zaskoczenie" jest mierzone gradientem wejścia do modułu pamięci. Im większy gradient, tym bardziej nieoczekiwane wejście.
Mechanizmy Momentum i Zapominania: Mechanizm momentum gromadzi krótkoterminowe zaskoczenia w długoterminowej pamięci, podczas gdy mechanizm zapominania usuwa stare wspomnienia, zapobiegając przepełnieniu pamięci.
Pamięć oparta na wielowarstwowym perceptronie (MLP): Moduł pamięci składa się z wielu warstw MLP, co pozwala mu przechowywać głębokie abstrakcje danych, czyniąc go bardziej potężnym niż tradycyjne pamięci oparte na macierzach.

To podejście meta-uczenia online pomaga modelowi skupić się na uczeniu się, jak dostosowywać się do nowych danych, a nie tylko zapamiętywać dane treningowe. Moduł jest również zaprojektowany do obliczeń równoległych, co zwiększa jego wydajność.

Integracja Modułu Pamięci z Architekturami Głebokiego Uczenia

Zespół badawczy Titan zaproponował trzy warianty włączenia swojego modułu pamięci do architektur głębokiego uczenia:

MAC (Memory as Context): Ta metoda łączy długoterminową i trwałą pamięć (która koduje wiedzę o zadaniu) jako kontekst, który jest wprowadzany do mechanizmu uwagi.
MAG (Memory as Gate): To podejście wykorzystuje bramkowane łączenie modułu pamięci z mechanizmem uwagi okna przesuwnego w dwóch gałęziach.
MAL (Memory as Layer): Tutaj moduł pamięci jest implementowany jako niezależna warstwa, która kompresuje informacje historyczne przed przekazaniem ich do mechanizmu uwagi.

Zespół odkrył, że każdy wariant ma swoje mocne i słabe strony.

Wydajność i Zalety Titan

Titan wykazał doskonałą wydajność w różnych zadaniach, w tym w modelowaniu języka, rozumowaniu zdroworozsądkowym i prognozowaniu szeregów czasowych. Przewyższył najnowocześniejsze modele, takie jak Transformer i Mamba. W szczególności długoterminowy moduł pamięci (LMM) sam w sobie osiągnął lepsze wyniki niż modele bazowe w kilku zadaniach, wykazując swoje niezależne zdolności uczenia się bez krótkoterminowej pamięci (uwagi).

W teście "igła w stogu siana" zaprojektowanym w celu znalezienia drobnych wskazówek w długich tekstach, Titan utrzymywał około 90% dokładności nawet przy zwiększeniu długości sekwencji od 2k do 16k. Zespół wskazuje, że standardowe testy nie w pełni ukazują zalet Titan w obsłudze długich tekstów. Titan również przewyższył modele takie jak GPT4, Mamba, a nawet Llama3.1 z RAG w zadaniu wymagającym wnioskowania z faktów rozproszonych w bardzo długich dokumentach.

Titan wykazał imponującą wydajność również w konkretnych obszarach, takich jak prognozowanie szeregów czasowych i modelowanie sekwencji DNA.

Zespół Stojący Za Titan

Badania zostały przeprowadzone przez zespół z Google Research NYC algorithms and optimization group, który obecnie nie jest częścią Google DeepMind.

Ali Behrouz, stażysta z Cornell University, jest pierwszym autorem artykułu.
Zhong Peilin, absolwent Uniwersytetu Tsinghua i doktorant z Columbia University, jest naukowcem w Google od 2021 roku. Jest znany z opublikowania artykułu jako pierwszy autor na STOC 2016 jako student licencjacki.
Vahab Mirrokni, Google Fellow i VP, kieruje zespołem.

Zespół opracował Titan przy użyciu Pytorch i Jax i planuje wkrótce udostępnić kod do treningu i ewaluacji.