A Arquitetura BLT da Meta Elimina a Tokenização: Uma Nova Abordagem para Modelos de Linguagem

Introdução

A Meta, em colaboração com pesquisadores da Universidade de Chicago e outras instituições, publicou recentemente um artigo inovador intitulado "Byte Latent Transformer: Patches Scale Better Than Tokens". Esta pesquisa gerou um debate considerável, especialmente em plataformas como o Hacker News. O conceito central gira em torno de uma nova abordagem para modelos de linguagem que poderia potencialmente substituir o processo tradicional de tokenização. A empolgação é evidente, com alguns pesquisadores expressando o desejo de superar os tokenizadores. No entanto, também existe preocupação sobre a viabilidade de integrar esta nova tecnologia, dado que a tokenização forma a base de muitos modelos existentes.

O Problema com a Tokenização

Os modelos de linguagem tradicionais dependem da tokenização para pré-processar dados. No entanto, este método tem várias limitações. Estas incluem:

Um tamanho de vocabulário fixo, que pode não ser adequado para todas as línguas ou contextos.
Ineficiências no processamento de dados multilingues ou ruidosos.
A introdução de vieses devido a heurísticas de compressão.

Byte Latent Transformer (BLT)

A pesquisa introduz o Byte Latent Transformer (BLT) como uma solução que desafia a abordagem convencional de tokenização. Em vez de trabalhar com tokens, o BLT modela diretamente fluxos de bytes brutos. Agrupa dinamicamente estes bytes em patches com base na sua entropia, otimizando a eficiência computacional. Isto significa que o BLT pode aprender diretamente com os dados de bytes originais sem depender de um vocabulário estático. O BLT foi concebido para lidar com entradas diversas e ruidosas de forma mais eficaz.

As principais características do BLT incluem:

Patching Baseado em Entropia: O BLT agrupa dinamicamente bytes em patches com base na sua complexidade de informação. Esta abordagem aloca mais recursos computacionais para regiões de alta entropia (complexas) e poupa recursos em áreas de baixa entropia.
Escala Eficiente: O BLT otimiza os tamanhos de patches e utiliza modelos locais leves, atingindo um desempenho comparável ou melhor do que os modelos baseados em tokens como o LLaMA. Também reduz os custos computacionais em até 50% durante a inferência.
Robustez e Flexibilidade: O BLT demonstra um desempenho excecional em tarefas que exigem compreensão ao nível do carácter, lidando com entradas ruidosas ou generalizando para dados de cauda longa, superando as arquiteturas baseadas em tokens em muitos benchmarks.

Arquitetura BLT

A arquitetura BLT consiste em:

Um grande modelo de linguagem autoregressivo global que opera em representações de patches.
Dois modelos locais menores que codificam sequências de bytes em patches e descodificam representações de patches de volta para bytes.

Modelo Global de Transformador Latente

O transformador latente global é um modelo autoregressivo que mapeia representações de patches de entrada para representações de patches de saída. Utiliza uma máscara de atenção causal de bloco.

Codificador Local

O modelo de codificador local é um modelo leve baseado em transformadores que mapeia eficientemente sequências de bytes de entrada para representações de patches expressivas. Tem camadas de atenção cruzada após cada camada de transformador, agrupando representações de bytes em representações de patches.

Incorporação de Bytes: As sequências de bytes de entrada são incorporadas usando uma matriz.
Camadas de Transformador: Uma série de camadas alternadas de transformador e atenção cruzada convertem as incorporações em representações de patches. Isto inclui uma máscara de atenção causal de bloco local.

Descodificador Local

O descodificador local é outro modelo leve baseado em transformadores. Descodifica as representações de patches globais nos bytes originais. Utiliza uma série de camadas de atenção cruzada e transformador. Isto permite prever as sequências de bytes originais com base em bytes previamente descodificados.

Tendências de Escala

A pesquisa explora as tendências de escala de modelos ao nível do byte para informar o desenvolvimento futuro do modelo BLT. Isto inclui:

Comparar tendências em esquemas de treino computacionalmente ótimos.
Treinar modelos de 8B parâmetros em grandes conjuntos de dados e avaliar o desempenho em tarefas a jusante.
Medir tendências de escala em configurações controladas por custos de inferência.

Tendências de Escala Ótima Computacionalmente Correspondidas por Parâmetros

Usando o conjunto de dados Llama 2, os pesquisadores treinaram vários modelos BPE e BLT de diferentes tamanhos (1B a 8B parâmetros) com configurações computacionalmente ótimas. Os flops de treino foram plotados contra o desempenho da modelagem de linguagem. Os modelos BLT igualaram ou superaram os modelos BPE, e esta tendência persistiu à medida que os tamanhos e flops dos modelos aumentaram.

Conjunto de Dados BLT-1T

Um modelo BLT de 8B parâmetros foi treinado num conjunto de dados maior de alta qualidade, BLT-1T. Os resultados mostraram que o modelo BLT-Entropy superou o modelo Llama 3 em 4 das 7 tarefas. Esta melhoria é atribuída a um melhor uso da computação de treino usando patches dinâmicos e modelando informações ao nível do byte em vez de tokens.

Escala de Patches

A pesquisa destaca que os patches escalam mais facilmente do que os tokens. O estudo sobre a escala do comprimento dos patches mostra que a arquitetura BLT baseada em patches pode atingir melhores tendências de escala, aumentando tanto o tamanho dos patches como o dos modelos.

Robustez Através da Modelagem de Bytes

Tarefas ao Nível do Carácter

O modelo BLT demonstra uma robustez superior em testes ruidosos HellaSwag, excedendo os modelos baseados em tokenizadores por uma média de 8 pontos percentuais. Até superou os modelos Llama 3.1 treinados em conjuntos de dados maiores.

Línguas de Baixos Recursos

O BLT tem um desempenho comparável ou ligeiramente melhor do que o Llama 3 em pares de línguas populares. No entanto, supera significativamente o Llama 3 em pares de línguas de baixos recursos, demonstrando a eficácia da modelagem de bytes na generalização para sequências de bytes de cauda longa.

De Llama 3 Para BLT

Os autores investigaram um fluxo de trabalho onde os modelos BLT podem usar modelos baseados em tokenizadores pré-treinados. Isto foi feito inicializando os parâmetros do tokenizador global do BLT com um Llama 3.1 pré-treinado. Os resultados mostraram que o BLT inicializado com Llama 3.1 superou tanto o Llama 3 como os modelos BLT de base treinados com o mesmo número de flops.