Meta的BLT架构：告别分词，拥抱字节级Transformer

引言

Meta公司及其芝加哥大学等机构的合作者，最近发表了一篇名为“字节潜在Transformer：补丁比标记更具扩展性”的开创性论文。这项研究引发了广泛的讨论，尤其是在Hacker News等平台上。其核心概念围绕着一种新的语言模型方法，这种方法有可能取代传统的分词过程。一些研究人员表达了摆脱分词器的强烈愿望，这种兴奋之情显而易见。然而，考虑到分词是许多现有模型的基础，人们也担心整合这项新技术的可能性。

分词的局限性

传统语言模型依赖于分词来预处理数据。然而，这种方法有几个局限性，包括：

固定词汇量：这可能不足以应对所有语言或上下文。
处理多语言或噪声数据的效率低下。
由于压缩启发式方法而引入的偏差。

字节潜在Transformer (BLT)

该研究引入了字节潜在Transformer（BLT），作为挑战传统分词方法的一种解决方案。BLT不是处理标记，而是直接建模原始字节流。它根据字节的熵动态地将这些字节分组为补丁，从而优化计算效率。这意味着BLT可以直接从原始字节数据中学习，而无需依赖静态词汇表。BLT旨在更有效地处理多样化和噪声输入。

BLT的关键特性包括：

基于熵的补丁：BLT根据信息复杂度动态地将字节分组为补丁。这种方法将更多计算资源分配给高熵（复杂）区域，并在低熵区域节省资源。
高效缩放：BLT优化补丁大小并使用轻量级局部模型，实现了与基于标记的模型（如LLaMA）相当或更好的性能。它还在推理过程中将计算成本降低了高达50%。
鲁棒性和灵活性：BLT在需要字符级理解、处理噪声输入或泛化到长尾数据的任务中表现出卓越的性能，在许多基准测试中超越了基于标记的架构。

BLT架构

BLT架构包括：

一个大型全局自回归语言模型，它在补丁表示上运行。
两个较小的局部模型，它们将字节序列编码为补丁，并将补丁表示解码回字节。

全局潜在Transformer模型

全局潜在Transformer是一个自回归模型，它将输入补丁表示映射到输出补丁表示。它使用块因果注意力掩码。

局部编码器

局部编码器模型是一个轻量级的基于Transformer的模型，它有效地将输入字节序列映射到富有表现力的补丁表示。在每个Transformer层之后，它都有交叉注意力层，将字节表示池化为补丁表示。

字节嵌入：输入字节序列使用矩阵嵌入。
Transformer层：一系列交替的Transformer和交叉注意力层将嵌入转换为补丁表示。这包括一个局部块因果注意力掩码。

局部解码器

局部解码器是另一个轻量级的基于Transformer的模型。它将全局补丁表示解码为原始字节。它使用一系列交叉注意力和Transformer层。这允许基于先前解码的字节来预测原始字节序列。

缩放趋势

该研究探讨了字节级模型的缩放趋势，为进一步的BLT模型开发提供信息。这包括：

比较计算最优训练方案的趋势。
在大型数据集上训练80亿参数模型并评估下游任务的性能。
测量推理成本控制设置中的缩放趋势。

参数匹配的计算最优缩放趋势

研究人员使用Llama 2数据集，在计算最优设置下训练了不同大小（10亿到80亿参数）的各种BPE和BLT模型。训练浮点运算次数与语言建模性能绘制成图。BLT模型要么与BPE模型匹配，要么优于BPE模型，并且这种趋势随着模型大小和浮点运算次数的增加而持续存在。

BLT-1T数据集

一个80亿参数的BLT模型在一个更大的高质量数据集BLT-1T上进行了训练。结果表明，BLT-Entropy模型在7项任务中的4项上优于Llama 3模型。这种改进归因于更好地利用动态补丁的训练计算和建模字节级信息，而不是标记。

补丁缩放

该研究强调，补丁比标记更容易缩放。对补丁长度缩放的研究表明，基于补丁的BLT架构可以通过增加补丁和模型大小来实现更好的缩放趋势。

通过字节建模实现鲁棒性

字符级任务

BLT模型在嘈杂的HellaSwag测试中表现出卓越的鲁棒性，平均超过基于分词器的模型8个百分点。它甚至优于在更大数据集上训练的Llama 3.1模型。

低资源语言

BLT在流行的语言对中表现出与Llama 3相当或略好的性能。然而，它在低资源语言对中显著优于Llama 3，这表明字节建模在泛化到长尾字节序列方面的有效性。

从Llama 3到BLT

作者研究了一种工作流程，其中BLT模型可以使用预训练的基于分词器的模型。这是通过使用预训练的Llama 3.1初始化BLT的全局分词器参数来完成的。结果表明，使用Llama 3.1初始化的BLT优于Llama 3和使用相同浮点运算次数训练的基线BLT模型。