Published on

Нова архитектура на Google Titan преодолява ограниченията на паметта на Transformer

Автори
  • avatar
    Име
    Ajax
    Twitter

Представяне на Titan: Нова архитектура от Google

Технологичният свят е развълнуван от Titan, нова архитектура, разработена от Google. Тя е проектирана да преодолее ограниченията на Transformer моделите, особено в начина, по който те управляват паметта. Тази нова архитектура привлича значително внимание като потенциален наследник на Transformer, особено като се има предвид, че е разработена от екип в Google.

Предизвикателството с паметта при съществуващите модели

Традиционните модели като LSTM и Transformer, макар и иновативни, се сблъскват с предизвикателства при симулирането на човешка памет. Тези предизвикателства включват:

  • Ограничен капацитет: Данните често се компресират до хибридно състояние с фиксиран размер, което ограничава количеството информация, което може да бъде запазено.
  • Изчислителни разходи: Въпреки че са способни да улавят дългосрочни зависимости, изчислителните разходи се увеличават квадратично с дължината на последователността, което ги прави неефективни за много дълги последователности.
  • Прекомерно разчитане на тренировъчни данни: Простото запаметяване на тренировъчни данни не винаги помага при реални приложения, където тестовите данни могат да излязат извън тренировъчното разпределение.

Подходът на Titan: Невро-вдъхновен модул за памет

Екипът на Titan е възприел различен подход, като се стреми да кодира информацията в параметрите на невронна мрежа. Те са разработили онлайн мета-модел, предназначен да се научи как да запомня и забравя конкретни данни по време на тестване. Този модел е вдъхновен от невропсихологически принципи, включващи следните ключови елементи:

  • Изненадата като спусък: Неочакваните събития се запомнят по-лесно. "Изненадата" се измерва чрез градиента на входните данни към модула за памет. Колкото по-голям е градиентът, толкова по-неочаквани са входните данни.
  • Механизми за инерция и забравяне: Механизмът за инерция натрупва краткосрочни изненади в дългосрочна памет, докато механизмът за забравяне изтрива стари спомени, предотвратявайки препълването на паметта.
  • Памет, базирана на многослоен перцептрон (MLP): Модулът за памет е съставен от множество MLP слоеве, което му позволява да съхранява дълбоки абстракции на данни, което го прави по-мощен от традиционните матрично базирани памети.

Този онлайн мета-подход за обучение помага на модела да се съсредоточи върху научаването как да се адаптира към нови данни, а не просто да запаметява тренировъчни данни. Модулът е проектиран и за паралелни изчисления, което повишава неговата ефективност.

Интегриране на модула за памет в архитектури за дълбоко обучение

Изследователският екип на Titans предложи три варианта за включване на техния модул за памет в архитектури за дълбоко обучение:

  1. MAC (Памет като контекст): Този метод комбинира дългосрочна и постоянна памет (която кодира знания за задачата) като контекст, който се въвежда в механизма за внимание.
  2. MAG (Памет като врата): Този подход използва контролирано сливане на модула за памет с механизъм за внимание с плъзгащ се прозорец в два клона.
  3. MAL (Памет като слой): Тук модулът за памет се имплементира като независим слой, който компресира историческа информация, преди да я подаде към механизма за внимание.

Екипът установи, че всеки вариант има своите силни и слаби страни.

Производителност и предимства на Titan

Titan демонстрира превъзходна производителност в различни задачи, включително езиково моделиране, разсъждения по общ смисъл и прогнозиране на времеви редове. Той надмина най-съвременните модели като Transformer и Mamba. По-специално, модулът за дългосрочна памет (LMM) сам по себе си е надминал базовите модели в няколко задачи, показвайки своите независими възможности за обучение без краткосрочна памет (внимание).

В тест "игла в купа сено", предназначен да намери фини улики в дълги текстове, Titan поддържа точност от около 90%, дори когато дължините на последователностите се увеличават от 2k до 16k. Екипът посочва, че стандартните тестове не показват напълно предимствата на Titan при работа с дълги текстове. Titan също така превъзхожда модели като GPT4, Mamba и дори Llama3.1 с RAG в задача, изискваща извличане на изводи от факти, разпръснати в изключително дълги документи.

Titan показа впечатляваща производителност и в специфични области като прогнозиране на времеви редове и моделиране на ДНК последователности.

Екипът зад Titan

Изследването е проведено от екип от Google Research NYC algorithms and optimization group, който понастоящем не е част от Google DeepMind.

  • Али Бехруз, стажант от Cornell University, е първият автор на статията.
  • Zhong Peilin, възпитаник на Tsinghua University и доктор на науките от Columbia University, е научен сътрудник в Google от 2021 г. Той е известен с това, че е публикувал статия като първи автор на STOC 2016 като студент.
  • Vahab Mirrokni, Google Fellow и вицепрезидент, ръководи екипа.

Екипът разработи Titan, използвайки Pytorch и Jax, и планира скоро да пусне кода за обучение и оценка.