Байт-Латентный Трансформер Meta: Новая Эра в Моделях Языка без Токенизации

Введение

Недавняя публикация Meta, в сотрудничестве с учеными из Чикагского университета и других учреждений, под названием "Byte Latent Transformer: Patches Scale Better Than Tokens", вызвала значительный интерес, особенно на таких платформах, как Hacker News. В центре внимания — новый подход к языковым моделям, который может заменить традиционный процесс токенизации. Энтузиазм среди исследователей ощутим, многие стремятся к переходу от токенизаторов. Однако, существуют опасения относительно интеграции этой новой технологии, учитывая, что токенизация является основой многих существующих моделей.

Проблема с токенизацией

Традиционные языковые модели используют токенизацию для предварительной обработки данных. Однако этот метод имеет ряд ограничений:

Фиксированный размер словаря: Не всегда подходит для всех языков или контекстов.
Неэффективность обработки многоязычных или зашумленных данных.
Внесение искажений из-за эвристики сжатия.

Byte Latent Transformer (BLT)

Исследование представляет Byte Latent Transformer (BLT) как решение, которое бросает вызов традиционному подходу токенизации. Вместо работы с токенами, BLT моделирует непосредственно потоки байтов. Он динамически группирует эти байты в патчи на основе их энтропии, оптимизируя вычислительную эффективность. Это означает, что BLT может учиться непосредственно из исходных байтовых данных, не полагаясь на статический словарь. BLT разработан для более эффективной обработки разнообразных и зашумленных входных данных.

Ключевые особенности BLT:

Патчинг на основе энтропии: BLT динамически группирует байты в патчи на основе их информационной сложности. Этот подход выделяет больше вычислительных ресурсов для регионов с высокой энтропией (сложных) и экономит ресурсы в областях с низкой энтропией.
Эффективное масштабирование: BLT оптимизирует размеры патчей и использует легкие локальные модели, достигая производительности, сравнимой или превосходящей модели на основе токенов, такие как LLaMA. Он также снижает вычислительные затраты до 50% во время вывода.
Надежность и гибкость: BLT демонстрирует исключительную производительность в задачах, требующих понимания на уровне символов, обработки зашумленных входных данных или обобщения на данные с длинным хвостом, превосходя архитектуры на основе токенов по многим показателям.

Архитектура BLT

Архитектура BLT состоит из:

Большой глобальной авторегрессионной языковой модели, которая работает с представлениями патчей.
Двух меньших локальных моделей, которые кодируют последовательности байтов в патчи и декодируют представления патчей обратно в байты.

Глобальная Латентная Трансформерная Модель

Глобальный латентный трансформер является авторегрессионной моделью, которая сопоставляет входные представления патчей с выходными представлениями патчей. Она использует маску причинного внимания.

Локальный Энкодер

Локальная модель энкодера — это легкая модель на основе трансформера, которая эффективно отображает входные последовательности байтов в выразительные представления патчей. Она имеет слои перекрестного внимания после каждого слоя трансформера, объединяя представления байтов в представления патчей.

Встраивание байтов: Входные последовательности байтов встраиваются с использованием матрицы.
Слои трансформера: Серия чередующихся слоев трансформера и перекрестного внимания преобразует встраивания в представления патчей. Это включает локальную маску причинного внимания.

Локальный Декодер

Локальный декодер — это еще одна легкая модель на основе трансформера. Он декодирует глобальные представления патчей в исходные байты. Он использует серию слоев перекрестного внимания и трансформера. Это позволяет предсказывать исходные последовательности байтов на основе ранее декодированных байтов.

Тенденции масштабирования

Исследование изучает тенденции масштабирования моделей байтового уровня для информирования о дальнейшей разработке моделей BLT. Это включает в себя:

Сравнение тенденций в вычислительно оптимальных схемах обучения.
Обучение моделей с 8B параметрами на больших наборах данных и оценку производительности в задачах downstream.
Измерение тенденций масштабирования в условиях контролируемой стоимости вывода.

Параметрически-согласованное Вычислительно Оптимальное Масштабирование

Используя набор данных Llama 2, исследователи обучили различные модели BPE и BLT разных размеров (от 1B до 8B параметров) с вычислительно оптимальными настройками. Обучающие флопы были нанесены на график относительно производительности языкового моделирования. Модели BLT либо соответствовали, либо превосходили модели BPE, и эта тенденция сохранялась по мере увеличения размеров моделей и флопов.

Набор Данных BLT-1T

Модель BLT с 8B параметрами была обучена на большем высококачественном наборе данных, BLT-1T. Результаты показали, что модель BLT-Entropy превзошла модель Llama 3 в 4 из 7 задач. Это улучшение объясняется лучшим использованием вычислительных ресурсов обучения с использованием динамических патчей и моделированием информации на уровне байтов вместо токенов.

Масштабирование патчей

Исследование подчеркивает, что патчи масштабируются легче, чем токены. Исследование масштабирования длины патчей показывает, что архитектура BLT на основе патчей может достичь лучших тенденций масштабирования за счет увеличения как размера патча, так и размера модели.

Надежность через байтовое моделирование

Задачи на уровне символов

Модель BLT демонстрирует превосходную надежность в зашумленных тестах HellaSwag, превосходя модели на основе токенизатора в среднем на 8 процентных пунктов. Она даже превзошла Llama 3.1 модели, обученные на больших наборах данных.

Языки с ограниченными ресурсами

BLT работает сравнимо или немного лучше, чем Llama 3, в популярных языковых парах. Однако она значительно превосходит Llama 3 в языковых парах с ограниченными ресурсами, что демонстрирует эффективность байтового моделирования при обобщении на длиннохвостые последовательности байтов.

От Llama 3 к BLT

Авторы исследовали рабочий процесс, в котором модели BLT могут использовать предварительно обученные модели на основе токенизатора. Это было сделано путем инициализации глобальных параметров токенизатора BLT предварительно обученной моделью Llama 3.1. Результаты показали, что BLT, инициализированная Llama 3.1, превзошла как Llama 3, так и базовые модели BLT, обученные с тем же количеством флопов.