Published on

Байт Латентен Трансформатор (BLT) на Meta: Елиминиране на токенизацията в езиковите модели

Автори
  • avatar
    Име
    Ajax
    Twitter

Въведение

Meta, заедно със сътрудници от Чикагския университет и други институции, наскоро публикуваха новаторска статия, озаглавена "Байт Латентен Трансформатор: Пачовете мащабират по-добре от токените". Това изследване предизвика значителни дискусии, особено в платформи като Hacker News. Основната концепция се върти около нов подход към езиковите модели, който потенциално може да замени традиционния процес на токенизация. Вълнението е осезаемо, като някои изследователи изразяват нетърпение да се отдалечат от токенизаторите. Въпреки това, има и безпокойство относно осъществимостта на интегрирането на тази нова технология, като се има предвид, че токенизацията формира основата на много съществуващи модели.

Проблемът с токенизацията

Традиционните езикови модели разчитат на токенизация, за да обработват предварително данните. Този метод обаче има няколко ограничения. Те включват:

  • Фиксиран размер на речника, който може да не е адекватен за всички езици или контексти.
  • Неефективност при обработката на многоезични или шумни данни.
  • Въвеждането на отклонения поради евристики за компресия.

Байт Латентен Трансформатор (BLT)

Изследването представя Байтовия Латентен Трансформатор (BLT) като решение, което оспорва конвенционалния подход на токенизация. Вместо да работи с токени, BLT директно моделира сурови байтови потоци. Той динамично групира тези байтове в пачове въз основа на тяхната ентропия, оптимизирайки изчислителната ефективност. Това означава, че BLT може да се учи директно от оригиналните байтови данни, без да разчита на статичен речник. BLT е проектиран да обработва по-ефективно разнообразни и шумни входни данни.

Основни характеристики на BLT включват:

  • Базирано на ентропия пачиране: BLT динамично групира байтове в пачове въз основа на тяхната информационна сложност. Този подход разпределя повече изчислителни ресурси към региони с висока ентропия (сложни) и спестява ресурси в области с ниска ентропия.
  • Ефективно мащабиране: BLT оптимизира размерите на пачовете и използва леки локални модели, постигайки производителност, сравнима или по-добра от модели, базирани на токени, като LLaMA. Също така намалява изчислителните разходи с до 50% по време на извод.
  • Устойчивост и гъвкавост: BLT демонстрира изключителна производителност в задачи, които изискват разбиране на ниво символ, обработка на шумни входни данни или обобщаване на дългоопашати данни, надминавайки базираните на токени архитектури в много бенчмаркове.

BLT архитектура

BLT архитектурата се състои от:

  1. Голям глобален авторегресивен езиков модел, който работи върху пачови представяния.
  2. Два по-малки локални модела, които кодират байтови последователности в пачове и декодират пачови представяния обратно в байтове.

Глобален Латентен Трансформаторен Модел

Глобалният латентен трансформатор е авторегресивен модел, който картографира входни пачови представяния към изходни пачови представяния. Той използва блок причинно-следствена маска за внимание.

Локален Кодер

Локалният кодер е лек модел, базиран на трансформатор, който ефективно картографира входни байтови последователности към експресивни пачови представяния. Той има слоеве с кръстосано внимание след всеки трансформаторен слой, обединявайки байтови представяния в пачови представяния.

  • Байтово вграждане: Входните байтови последователности се вграждат с помощта на матрица.
  • Трансформаторни слоеве: Серия от редуващи се трансформаторни слоеве и слоеве с кръстосано внимание преобразуват вгражданията в пачови представяния. Това включва локална блок причинно-следствена маска за внимание.

Локален Декодер

Локалният декодер е друг лек модел, базиран на трансформатор. Той декодира глобални пачови представяния в оригиналните байтове. Той използва серия от кръстосано внимание и трансформаторни слоеве. Това позволява да се предскажат оригиналните байтови последователности въз основа на предишно декодирани байтове.

Тенденции в мащабирането

Изследването изследва тенденциите в мащабирането на модели на байтово ниво, за да информира по-нататъшното разработване на BLT модели. Това включва:

  • Сравняване на тенденциите в изчислително оптимални схеми за обучение.
  • Обучение на модели с 8 милиарда параметри върху големи набори от данни и оценка на производителността при задачи надолу по веригата.
  • Измерване на тенденциите в мащабирането в условия, контролирани от разходите за извод.

Съответстващи на параметри изчислително оптимални тенденции в мащабирането

Използвайки набора от данни Llama 2, изследователите обучиха различни BPE и BLT модели с различни размери (от 1 милиард до 8 милиарда параметри) с изчислително оптимални настройки. Изчислителните операции по обучение бяха нанесени на графика спрямо производителността на езиковото моделиране. BLT моделите или съвпадаха, или надминаваха BPE моделите и тази тенденция се запази с увеличаването на размерите на моделите и изчислителните операции.

BLT-1T набор от данни

Модел BLT с 8 милиарда параметри беше обучен върху по-голям висококачествен набор от данни, BLT-1T. Резултатите показаха, че BLT-Entropy моделът надминава модела Llama 3 в 4 от 7 задачи. Това подобрение се дължи на по-доброто използване на изчислителните ресурси за обучение с помощта на динамични пачове и моделиране на информация на байтово ниво вместо токени.

Мащабиране на пачове

Изследването подчертава, че пачовете мащабират по-лесно от токените. Проучването за мащабиране на дължината на пачовете показва, че базираната на пачове BLT архитектура може да постигне по-добри тенденции за мащабиране чрез увеличаване както на размерите на пачовете, така и на моделите.

Устойчивост чрез байтово моделиране

Задачи на ниво символ

BLT моделът демонстрира превъзходна устойчивост в шумни HellaSwag тестове, надминавайки модели, базирани на токенизатор, средно с 8 процентни пункта. Той дори надмина Llama 3.1 модели, обучени върху по-големи набори от данни.

Езици с ограничени ресурси

BLT се представя сравнимо или малко по-добре от Llama 3 в популярни езикови двойки. Въпреки това, той значително надминава Llama 3 в езикови двойки с ограничени ресурси, демонстрирайки ефективността на байтовото моделиране при обобщаване на дългоопашати байтови последователности.

От Llama 3 до BLT

Авторите изследваха работен процес, при който BLT моделите могат да използват предварително обучени модели, базирани на токенизатор. Това беше направено чрез инициализиране на глобалните параметри на токенизатора на BLT с предварително обучен Llama 3.1. Резултатите показаха, че BLT, инициализиран с Llama 3.1, надмина както Llama 3, така и базовите BLT модели, обучени със същия брой изчислителни операции.