Байт Латентен Трансформатор (BLT) на Meta: Елиминиране на токенизацията в езиковите модели

Въведение

Meta, заедно със сътрудници от Чикагския университет и други институции, наскоро публикуваха новаторска статия, озаглавена "Байт Латентен Трансформатор: Пачовете мащабират по-добре от токените". Това изследване предизвика значителни дискусии, особено в платформи като Hacker News. Основната концепция се върти около нов подход към езиковите модели, който потенциално може да замени традиционния процес на токенизация. Вълнението е осезаемо, като някои изследователи изразяват нетърпение да се отдалечат от токенизаторите. Въпреки това, има и безпокойство относно осъществимостта на интегрирането на тази нова технология, като се има предвид, че токенизацията формира основата на много съществуващи модели.

Проблемът с токенизацията

Традиционните езикови модели разчитат на токенизация, за да обработват предварително данните. Този метод обаче има няколко ограничения. Те включват:

Фиксиран размер на речника, който може да не е адекватен за всички езици или контексти.
Неефективност при обработката на многоезични или шумни данни.
Въвеждането на отклонения поради евристики за компресия.

Байт Латентен Трансформатор (BLT)

Изследването представя Байтовия Латентен Трансформатор (BLT) като решение, което оспорва конвенционалния подход на токенизация. Вместо да работи с токени, BLT директно моделира сурови байтови потоци. Той динамично групира тези байтове в пачове въз основа на тяхната ентропия, оптимизирайки изчислителната ефективност. Това означава, че BLT може да се учи директно от оригиналните байтови данни, без да разчита на статичен речник. BLT е проектиран да обработва по-ефективно разнообразни и шумни входни данни.

Основни характеристики на BLT включват:

Базирано на ентропия пачиране: BLT динамично групира байтове в пачове въз основа на тяхната информационна сложност. Този подход разпределя повече изчислителни ресурси към региони с висока ентропия (сложни) и спестява ресурси в области с ниска ентропия.
Ефективно мащабиране: BLT оптимизира размерите на пачовете и използва леки локални модели, постигайки производителност, сравнима или по-добра от модели, базирани на токени, като LLaMA. Също така намалява изчислителните разходи с до 50% по време на извод.
Устойчивост и гъвкавост: BLT демонстрира изключителна производителност в задачи, които изискват разбиране на ниво символ, обработка на шумни входни данни или обобщаване на дългоопашати данни, надминавайки базираните на токени архитектури в много бенчмаркове.

BLT архитектура

BLT архитектурата се състои от:

Голям глобален авторегресивен езиков модел, който работи върху пачови представяния.
Два по-малки локални модела, които кодират байтови последователности в пачове и декодират пачови представяния обратно в байтове.

Глобален Латентен Трансформаторен Модел

Глобалният латентен трансформатор е авторегресивен модел, който картографира входни пачови представяния към изходни пачови представяния. Той използва блок причинно-следствена маска за внимание.

Локален Кодер

Локалният кодер е лек модел, базиран на трансформатор, който ефективно картографира входни байтови последователности към експресивни пачови представяния. Той има слоеве с кръстосано внимание след всеки трансформаторен слой, обединявайки байтови представяния в пачови представяния.

Байтово вграждане: Входните байтови последователности се вграждат с помощта на матрица.
Трансформаторни слоеве: Серия от редуващи се трансформаторни слоеве и слоеве с кръстосано внимание преобразуват вгражданията в пачови представяния. Това включва локална блок причинно-следствена маска за внимание.

Локален Декодер

Локалният декодер е друг лек модел, базиран на трансформатор. Той декодира глобални пачови представяния в оригиналните байтове. Той използва серия от кръстосано внимание и трансформаторни слоеве. Това позволява да се предскажат оригиналните байтови последователности въз основа на предишно декодирани байтове.

Тенденции в мащабирането

Изследването изследва тенденциите в мащабирането на модели на байтово ниво, за да информира по-нататъшното разработване на BLT модели. Това включва:

Сравняване на тенденциите в изчислително оптимални схеми за обучение.
Обучение на модели с 8 милиарда параметри върху големи набори от данни и оценка на производителността при задачи надолу по веригата.
Измерване на тенденциите в мащабирането в условия, контролирани от разходите за извод.

Съответстващи на параметри изчислително оптимални тенденции в мащабирането

Използвайки набора от данни Llama 2, изследователите обучиха различни BPE и BLT модели с различни размери (от 1 милиард до 8 милиарда параметри) с изчислително оптимални настройки. Изчислителните операции по обучение бяха нанесени на графика спрямо производителността на езиковото моделиране. BLT моделите или съвпадаха, или надминаваха BPE моделите и тази тенденция се запази с увеличаването на размерите на моделите и изчислителните операции.

BLT-1T набор от данни

Модел BLT с 8 милиарда параметри беше обучен върху по-голям висококачествен набор от данни, BLT-1T. Резултатите показаха, че BLT-Entropy моделът надминава модела Llama 3 в 4 от 7 задачи. Това подобрение се дължи на по-доброто използване на изчислителните ресурси за обучение с помощта на динамични пачове и моделиране на информация на байтово ниво вместо токени.

Мащабиране на пачове

Изследването подчертава, че пачовете мащабират по-лесно от токените. Проучването за мащабиране на дължината на пачовете показва, че базираната на пачове BLT архитектура може да постигне по-добри тенденции за мащабиране чрез увеличаване както на размерите на пачовете, така и на моделите.

Устойчивост чрез байтово моделиране

Задачи на ниво символ

BLT моделът демонстрира превъзходна устойчивост в шумни HellaSwag тестове, надминавайки модели, базирани на токенизатор, средно с 8 процентни пункта. Той дори надмина Llama 3.1 модели, обучени върху по-големи набори от данни.

Езици с ограничени ресурси

BLT се представя сравнимо или малко по-добре от Llama 3 в популярни езикови двойки. Въпреки това, той значително надминава Llama 3 в езикови двойки с ограничени ресурси, демонстрирайки ефективността на байтовото моделиране при обобщаване на дългоопашати байтови последователности.

От Llama 3 до BLT

Авторите изследваха работен процес, при който BLT моделите могат да използват предварително обучени модели, базирани на токенизатор. Това беше направено чрез инициализиране на глобалните параметри на токенизатора на BLT с предварително обучен Llama 3.1. Резултатите показаха, че BLT, инициализиран с Llama 3.1, надмина както Llama 3, така и базовите BLT модели, обучени със същия брой изчислителни операции.