- Published on
Байт Латентен Трансформатор (BLT) на Meta: Елиминиране на токенизацията в езиковите модели
Въведение
Meta, заедно със сътрудници от Чикагския университет и други институции, наскоро публикуваха новаторска статия, озаглавена "Байт Латентен Трансформатор: Пачовете мащабират по-добре от токените". Това изследване предизвика значителни дискусии, особено в платформи като Hacker News. Основната концепция се върти около нов подход към езиковите модели, който потенциално може да замени традиционния процес на токенизация. Вълнението е осезаемо, като някои изследователи изразяват нетърпение да се отдалечат от токенизаторите. Въпреки това, има и безпокойство относно осъществимостта на интегрирането на тази нова технология, като се има предвид, че токенизацията формира основата на много съществуващи модели.
Проблемът с токенизацията
Традиционните езикови модели разчитат на токенизация, за да обработват предварително данните. Този метод обаче има няколко ограничения. Те включват:
- Фиксиран размер на речника, който може да не е адекватен за всички езици или контексти.
- Неефективност при обработката на многоезични или шумни данни.
- Въвеждането на отклонения поради евристики за компресия.
Байт Латентен Трансформатор (BLT)
Изследването представя Байтовия Латентен Трансформатор (BLT) като решение, което оспорва конвенционалния подход на токенизация. Вместо да работи с токени, BLT директно моделира сурови байтови потоци. Той динамично групира тези байтове в пачове въз основа на тяхната ентропия, оптимизирайки изчислителната ефективност. Това означава, че BLT може да се учи директно от оригиналните байтови данни, без да разчита на статичен речник. BLT е проектиран да обработва по-ефективно разнообразни и шумни входни данни.
Основни характеристики на BLT включват:
- Базирано на ентропия пачиране: BLT динамично групира байтове в пачове въз основа на тяхната информационна сложност. Този подход разпределя повече изчислителни ресурси към региони с висока ентропия (сложни) и спестява ресурси в области с ниска ентропия.
- Ефективно мащабиране: BLT оптимизира размерите на пачовете и използва леки локални модели, постигайки производителност, сравнима или по-добра от модели, базирани на токени, като LLaMA. Също така намалява изчислителните разходи с до 50% по време на извод.
- Устойчивост и гъвкавост: BLT демонстрира изключителна производителност в задачи, които изискват разбиране на ниво символ, обработка на шумни входни данни или обобщаване на дългоопашати данни, надминавайки базираните на токени архитектури в много бенчмаркове.
BLT архитектура
BLT архитектурата се състои от:
- Голям глобален авторегресивен езиков модел, който работи върху пачови представяния.
- Два по-малки локални модела, които кодират байтови последователности в пачове и декодират пачови представяния обратно в байтове.
Глобален Латентен Трансформаторен Модел
Глобалният латентен трансформатор е авторегресивен модел, който картографира входни пачови представяния към изходни пачови представяния. Той използва блок причинно-следствена маска за внимание.
Локален Кодер
Локалният кодер е лек модел, базиран на трансформатор, който ефективно картографира входни байтови последователности към експресивни пачови представяния. Той има слоеве с кръстосано внимание след всеки трансформаторен слой, обединявайки байтови представяния в пачови представяния.
- Байтово вграждане: Входните байтови последователности се вграждат с помощта на матрица.
- Трансформаторни слоеве: Серия от редуващи се трансформаторни слоеве и слоеве с кръстосано внимание преобразуват вгражданията в пачови представяния. Това включва локална блок причинно-следствена маска за внимание.
Локален Декодер
Локалният декодер е друг лек модел, базиран на трансформатор. Той декодира глобални пачови представяния в оригиналните байтове. Той използва серия от кръстосано внимание и трансформаторни слоеве. Това позволява да се предскажат оригиналните байтови последователности въз основа на предишно декодирани байтове.
Тенденции в мащабирането
Изследването изследва тенденциите в мащабирането на модели на байтово ниво, за да информира по-нататъшното разработване на BLT модели. Това включва:
- Сравняване на тенденциите в изчислително оптимални схеми за обучение.
- Обучение на модели с 8 милиарда параметри върху големи набори от данни и оценка на производителността при задачи надолу по веригата.
- Измерване на тенденциите в мащабирането в условия, контролирани от разходите за извод.
Съответстващи на параметри изчислително оптимални тенденции в мащабирането
Използвайки набора от данни Llama 2, изследователите обучиха различни BPE и BLT модели с различни размери (от 1 милиард до 8 милиарда параметри) с изчислително оптимални настройки. Изчислителните операции по обучение бяха нанесени на графика спрямо производителността на езиковото моделиране. BLT моделите или съвпадаха, или надминаваха BPE моделите и тази тенденция се запази с увеличаването на размерите на моделите и изчислителните операции.
BLT-1T набор от данни
Модел BLT с 8 милиарда параметри беше обучен върху по-голям висококачествен набор от данни, BLT-1T. Резултатите показаха, че BLT-Entropy моделът надминава модела Llama 3 в 4 от 7 задачи. Това подобрение се дължи на по-доброто използване на изчислителните ресурси за обучение с помощта на динамични пачове и моделиране на информация на байтово ниво вместо токени.
Мащабиране на пачове
Изследването подчертава, че пачовете мащабират по-лесно от токените. Проучването за мащабиране на дължината на пачовете показва, че базираната на пачове BLT архитектура може да постигне по-добри тенденции за мащабиране чрез увеличаване както на размерите на пачовете, така и на моделите.
Устойчивост чрез байтово моделиране
Задачи на ниво символ
BLT моделът демонстрира превъзходна устойчивост в шумни HellaSwag тестове, надминавайки модели, базирани на токенизатор, средно с 8 процентни пункта. Той дори надмина Llama 3.1 модели, обучени върху по-големи набори от данни.
Езици с ограничени ресурси
BLT се представя сравнимо или малко по-добре от Llama 3 в популярни езикови двойки. Въпреки това, той значително надминава Llama 3 в езикови двойки с ограничени ресурси, демонстрирайки ефективността на байтовото моделиране при обобщаване на дългоопашати байтови последователности.
От Llama 3 до BLT
Авторите изследваха работен процес, при който BLT моделите могат да използват предварително обучени модели, базирани на токенизатор. Това беше направено чрез инициализиране на глобалните параметри на токенизатора на BLT с предварително обучен Llama 3.1. Резултатите показаха, че BLT, инициализиран с Llama 3.1, надмина както Llama 3, така и базовите BLT модели, обучени със същия брой изчислителни операции.