- Published on
Meta的BLT架构:告别分词,拥抱字节级Transformer
引言
Meta公司及其芝加哥大学等机构的合作者,最近发表了一篇名为“字节潜在Transformer:补丁比标记更具扩展性”的开创性论文。这项研究引发了广泛的讨论,尤其是在Hacker News等平台上。其核心概念围绕着一种新的语言模型方法,这种方法有可能取代传统的分词过程。一些研究人员表达了摆脱分词器的强烈愿望,这种兴奋之情显而易见。然而,考虑到分词是许多现有模型的基础,人们也担心整合这项新技术的可能性。
分词的局限性
传统语言模型依赖于分词来预处理数据。然而,这种方法有几个局限性,包括:
- 固定词汇量:这可能不足以应对所有语言或上下文。
- 处理多语言或噪声数据的效率低下。
- 由于压缩启发式方法而引入的偏差。
字节潜在Transformer (BLT)
该研究引入了字节潜在Transformer(BLT),作为挑战传统分词方法的一种解决方案。BLT不是处理标记,而是直接建模原始字节流。它根据字节的熵动态地将这些字节分组为补丁,从而优化计算效率。这意味着BLT可以直接从原始字节数据中学习,而无需依赖静态词汇表。BLT旨在更有效地处理多样化和噪声输入。
BLT的关键特性包括:
- 基于熵的补丁:BLT根据信息复杂度动态地将字节分组为补丁。这种方法将更多计算资源分配给高熵(复杂)区域,并在低熵区域节省资源。
- 高效缩放:BLT优化补丁大小并使用轻量级局部模型,实现了与基于标记的模型(如LLaMA)相当或更好的性能。它还在推理过程中将计算成本降低了高达50%。
- 鲁棒性和灵活性:BLT在需要字符级理解、处理噪声输入或泛化到长尾数据的任务中表现出卓越的性能,在许多基准测试中超越了基于标记的架构。
BLT架构
BLT架构包括:
- 一个大型全局自回归语言模型,它在补丁表示上运行。
- 两个较小的局部模型,它们将字节序列编码为补丁,并将补丁表示解码回字节。
全局潜在Transformer模型
全局潜在Transformer是一个自回归模型,它将输入补丁表示映射到输出补丁表示。它使用块因果注意力掩码。
局部编码器
局部编码器模型是一个轻量级的基于Transformer的模型,它有效地将输入字节序列映射到富有表现力的补丁表示。在每个Transformer层之后,它都有交叉注意力层,将字节表示池化为补丁表示。
- 字节嵌入:输入字节序列使用矩阵嵌入。
- Transformer层:一系列交替的Transformer和交叉注意力层将嵌入转换为补丁表示。这包括一个局部块因果注意力掩码。
局部解码器
局部解码器是另一个轻量级的基于Transformer的模型。它将全局补丁表示解码为原始字节。它使用一系列交叉注意力和Transformer层。这允许基于先前解码的字节来预测原始字节序列。
缩放趋势
该研究探讨了字节级模型的缩放趋势,为进一步的BLT模型开发提供信息。这包括:
- 比较计算最优训练方案的趋势。
- 在大型数据集上训练80亿参数模型并评估下游任务的性能。
- 测量推理成本控制设置中的缩放趋势。
参数匹配的计算最优缩放趋势
研究人员使用Llama 2数据集,在计算最优设置下训练了不同大小(10亿到80亿参数)的各种BPE和BLT模型。训练浮点运算次数与语言建模性能绘制成图。BLT模型要么与BPE模型匹配,要么优于BPE模型,并且这种趋势随着模型大小和浮点运算次数的增加而持续存在。
BLT-1T数据集
一个80亿参数的BLT模型在一个更大的高质量数据集BLT-1T上进行了训练。结果表明,BLT-Entropy模型在7项任务中的4项上优于Llama 3模型。这种改进归因于更好地利用动态补丁的训练计算和建模字节级信息,而不是标记。
补丁缩放
该研究强调,补丁比标记更容易缩放。对补丁长度缩放的研究表明,基于补丁的BLT架构可以通过增加补丁和模型大小来实现更好的缩放趋势。
通过字节建模实现鲁棒性
字符级任务
BLT模型在嘈杂的HellaSwag测试中表现出卓越的鲁棒性,平均超过基于分词器的模型8个百分点。它甚至优于在更大数据集上训练的Llama 3.1模型。
低资源语言
BLT在流行的语言对中表现出与Llama 3相当或略好的性能。然而,它在低资源语言对中显著优于Llama 3,这表明字节建模在泛化到长尾字节序列方面的有效性。
从Llama 3到BLT
作者研究了一种工作流程,其中BLT模型可以使用预训练的基于分词器的模型。这是通过使用预训练的Llama 3.1初始化BLT的全局分词器参数来完成的。结果表明,使用Llama 3.1初始化的BLT优于Llama 3和使用相同浮点运算次数训练的基线BLT模型。