- Published on
Architektura Titan od Google przełamuje ograniczenia pamięci Transformerów
Wprowadzenie do Titan: Nowa architektura od Google
Świat technologii z podekscytowaniem mówi o Titan, nowej architekturze wyłaniającej się z Google. Została ona zaprojektowana, aby rzucić wyzwanie ograniczeniom modeli Transformer, szczególnie w sposobie, w jaki radzą sobie z pamięcią. Ta nowa architektura zyskuje znaczną uwagę jako potencjalny następca Transformer, zwłaszcza biorąc pod uwagę jej opracowanie przez zespół w Google.
Wyzwanie Pamięci w Istniejących Modelach
Tradycyjne modele, takie jak LSTM i Transformer, choć innowacyjne, napotykają trudności w symulowaniu pamięci podobnej do ludzkiej. Te wyzwania obejmują:
- Ograniczona Pojemność: Dane są często kompresowane do ukrytego stanu o stałym rozmiarze, co ogranicza ilość informacji, która może być zachowana.
- Obciążenie Obliczeniowe: Chociaż zdolne do wychwytywania zależności dalekiego zasięgu, koszt obliczeniowy wzrasta kwadratowo wraz z długością sekwencji, co czyni je nieefektywnymi dla bardzo długich sekwencji.
- Nadmierne Poleganie na Danych Treningowych: Samo zapamiętywanie danych treningowych nie zawsze pomaga w zastosowaniach w świecie rzeczywistym, gdzie dane testowe mogą wykraczać poza rozkład treningowy.
Podejście Titan: Neuro-Inspirowany Moduł Pamięci
Zespół Titan przyjął inne podejście, starając się zakodować informacje w parametrach sieci neuronowej. Opracowali oni model meta-uczenia online, zaprojektowany do uczenia się, jak zapamiętywać i zapominać konkretne dane podczas testowania. Ten model jest inspirowany zasadami neuro-psychologicznymi, obejmując następujące kluczowe elementy:
- Zaskoczenie jako Wyzwalacz: Nieoczekiwane zdarzenia są łatwiej zapamiętywane. "Zaskoczenie" jest mierzone gradientem wejścia do modułu pamięci. Im większy gradient, tym bardziej nieoczekiwane wejście.
- Mechanizmy Momentum i Zapominania: Mechanizm momentum gromadzi krótkoterminowe zaskoczenia w długoterminowej pamięci, podczas gdy mechanizm zapominania usuwa stare wspomnienia, zapobiegając przepełnieniu pamięci.
- Pamięć oparta na wielowarstwowym perceptronie (MLP): Moduł pamięci składa się z wielu warstw MLP, co pozwala mu przechowywać głębokie abstrakcje danych, czyniąc go bardziej potężnym niż tradycyjne pamięci oparte na macierzach.
To podejście meta-uczenia online pomaga modelowi skupić się na uczeniu się, jak dostosowywać się do nowych danych, a nie tylko zapamiętywać dane treningowe. Moduł jest również zaprojektowany do obliczeń równoległych, co zwiększa jego wydajność.
Integracja Modułu Pamięci z Architekturami Głebokiego Uczenia
Zespół badawczy Titan zaproponował trzy warianty włączenia swojego modułu pamięci do architektur głębokiego uczenia:
- MAC (Memory as Context): Ta metoda łączy długoterminową i trwałą pamięć (która koduje wiedzę o zadaniu) jako kontekst, który jest wprowadzany do mechanizmu uwagi.
- MAG (Memory as Gate): To podejście wykorzystuje bramkowane łączenie modułu pamięci z mechanizmem uwagi okna przesuwnego w dwóch gałęziach.
- MAL (Memory as Layer): Tutaj moduł pamięci jest implementowany jako niezależna warstwa, która kompresuje informacje historyczne przed przekazaniem ich do mechanizmu uwagi.
Zespół odkrył, że każdy wariant ma swoje mocne i słabe strony.
Wydajność i Zalety Titan
Titan wykazał doskonałą wydajność w różnych zadaniach, w tym w modelowaniu języka, rozumowaniu zdroworozsądkowym i prognozowaniu szeregów czasowych. Przewyższył najnowocześniejsze modele, takie jak Transformer i Mamba. W szczególności długoterminowy moduł pamięci (LMM) sam w sobie osiągnął lepsze wyniki niż modele bazowe w kilku zadaniach, wykazując swoje niezależne zdolności uczenia się bez krótkoterminowej pamięci (uwagi).
W teście "igła w stogu siana" zaprojektowanym w celu znalezienia drobnych wskazówek w długich tekstach, Titan utrzymywał około 90% dokładności nawet przy zwiększeniu długości sekwencji od 2k do 16k. Zespół wskazuje, że standardowe testy nie w pełni ukazują zalet Titan w obsłudze długich tekstów. Titan również przewyższył modele takie jak GPT4, Mamba, a nawet Llama3.1 z RAG w zadaniu wymagającym wnioskowania z faktów rozproszonych w bardzo długich dokumentach.
Titan wykazał imponującą wydajność również w konkretnych obszarach, takich jak prognozowanie szeregów czasowych i modelowanie sekwencji DNA.
Zespół Stojący Za Titan
Badania zostały przeprowadzone przez zespół z Google Research NYC algorithms and optimization group, który obecnie nie jest częścią Google DeepMind.
- Ali Behrouz, stażysta z Cornell University, jest pierwszym autorem artykułu.
- Zhong Peilin, absolwent Uniwersytetu Tsinghua i doktorant z Columbia University, jest naukowcem w Google od 2021 roku. Jest znany z opublikowania artykułu jako pierwszy autor na STOC 2016 jako student licencjacki.
- Vahab Mirrokni, Google Fellow i VP, kieruje zespołem.
Zespół opracował Titan przy użyciu Pytorch i Jax i planuje wkrótce udostępnić kod do treningu i ewaluacji.