La Arquitectura BLT de Meta Elimina la Tokenización: Un Nuevo Enfoque en Modelos de Lenguaje

Introducción

Meta, junto con colaboradores de la Universidad de Chicago y otras instituciones, ha publicado recientemente un innovador artículo titulado 'Byte Latent Transformer: Patches Scale Better Than Tokens'. Esta investigación ha generado un debate considerable, sobre todo en plataformas como Hacker News. El concepto central gira en torno a un nuevo enfoque para los modelos de lenguaje que podría reemplazar el proceso tradicional de tokenización. La emoción es palpable, y algunos investigadores expresan su entusiasmo por dejar atrás los tokenizadores. Sin embargo, también existe preocupación sobre la viabilidad de integrar esta nueva tecnología, dado que la tokenización constituye la base de muchos modelos existentes.

El Problema con la Tokenización

Los modelos de lenguaje tradicionales se basan en la tokenización para preprocesar los datos. Sin embargo, este método tiene varias limitaciones. Estas incluyen:

Un tamaño de vocabulario fijo, que puede no ser adecuado para todos los idiomas o contextos.
Ineficiencias en el procesamiento de datos multilingües o ruidosos.
La introducción de sesgos debido a la heurística de compresión.

Byte Latent Transformer (BLT)

La investigación introduce el Byte Latent Transformer (BLT) como una solución que desafía el enfoque convencional de la tokenización. En lugar de trabajar con tokens, BLT modela directamente flujos de bytes sin procesar. Agrupa dinámicamente estos bytes en parches en función de su entropía, optimizando la eficiencia computacional. Esto significa que BLT puede aprender directamente de los datos de bytes originales sin depender de un vocabulario estático. BLT está diseñado para manejar entradas diversas y ruidosas de manera más efectiva.

Las características clave de BLT incluyen:

Parcheado Basado en Entropía: BLT agrupa dinámicamente los bytes en parches en función de su complejidad de información. Este enfoque asigna más recursos computacionales a las regiones de alta entropía (complejas) y ahorra recursos en las áreas de baja entropía.
Escalado Eficiente: BLT optimiza los tamaños de los parches y utiliza modelos locales ligeros, logrando un rendimiento comparable o mejor que los modelos basados en tokens como LLaMA. También reduce los costos computacionales hasta en un 50% durante la inferencia.
Robustez y Flexibilidad: BLT demuestra un rendimiento excepcional en tareas que requieren comprensión a nivel de carácter, manejo de entradas ruidosas o generalización a datos de cola larga, superando a las arquitecturas basadas en tokens en muchos puntos de referencia.

Arquitectura BLT

La arquitectura BLT consta de:

Un gran modelo de lenguaje autorregresivo global que opera sobre representaciones de parches.
Dos modelos locales más pequeños que codifican secuencias de bytes en parches y decodifican representaciones de parches de nuevo en bytes.

Modelo Transformador Latente Global

El transformador latente global es un modelo autorregresivo que mapea las representaciones de parches de entrada a las representaciones de parches de salida. Utiliza una máscara de atención causal de bloque.

Codificador Local

El modelo codificador local es un modelo ligero basado en transformadores que mapea eficientemente las secuencias de bytes de entrada a representaciones de parches expresivas. Tiene capas de atención cruzada después de cada capa de transformador, agrupando las representaciones de bytes en representaciones de parches.

Incrustación de Bytes: Las secuencias de bytes de entrada se incrustan utilizando una matriz.
Capas de Transformador: Una serie de capas alternas de transformador y atención cruzada convierten las incrustaciones en representaciones de parches. Esto incluye una máscara de atención causal de bloque local.

Decodificador Local

El decodificador local es otro modelo ligero basado en transformadores. Decodifica las representaciones de parches globales en los bytes originales. Utiliza una serie de capas de atención cruzada y transformador. Esto permite predecir las secuencias de bytes originales basándose en los bytes decodificados previamente.

Tendencias de Escalado

La investigación explora las tendencias de escalado de los modelos a nivel de bytes para informar el desarrollo futuro del modelo BLT. Esto incluye:

Comparación de tendencias en esquemas de entrenamiento computacionalmente óptimos.
Entrenamiento de modelos de 8B parámetros en conjuntos de datos grandes y evaluación del rendimiento en tareas posteriores.
Medición de las tendencias de escalado en entornos controlados por costos de inferencia.

Escalado Óptimo Computacionalmente Coincidente con Parámetros

Utilizando el conjunto de datos Llama 2, los investigadores entrenaron varios modelos BPE y BLT de diferentes tamaños (1B a 8B parámetros) con configuraciones computacionalmente óptimas. Se trazaron los flops de entrenamiento contra el rendimiento del modelado del lenguaje. Los modelos BLT igualaron o superaron a los modelos BPE, y esta tendencia persistió a medida que aumentaban los tamaños de los modelos y los flops.

Conjunto de Datos BLT-1T

Se entrenó un modelo BLT de 8B parámetros en un conjunto de datos más grande y de alta calidad, BLT-1T. Los resultados mostraron que el modelo BLT-Entropy superó al modelo Llama 3 en 4 de las 7 tareas. Esta mejora se atribuye a un mejor uso de la computación de entrenamiento utilizando parches dinámicos y modelando información a nivel de bytes en lugar de tokens.

Escalado de Parches

La investigación destaca que los parches escalan más fácilmente que los tokens. El estudio sobre el escalado de la longitud de los parches muestra que la arquitectura BLT basada en parches puede lograr mejores tendencias de escalado al aumentar tanto el tamaño de los parches como el de los modelos.

Robustez a Través del Modelado de Bytes

Tareas a Nivel de Carácter

El modelo BLT demuestra una robustez superior en las pruebas ruidosas de HellaSwag, superando a los modelos basados en tokenizadores en un promedio de 8 puntos porcentuales. Incluso superó a los modelos Llama 3.1 entrenados en conjuntos de datos más grandes.

Lenguas con Pocos Recursos

BLT tiene un rendimiento comparable o ligeramente mejor que Llama 3 en pares de idiomas populares. Sin embargo, supera significativamente a Llama 3 en pares de idiomas con pocos recursos, lo que demuestra la eficacia del modelado de bytes para generalizar a secuencias de bytes de cola larga.

De Llama 3 a BLT

Los autores investigaron un flujo de trabajo en el que los modelos BLT pueden utilizar modelos basados en tokenizadores preentrenados. Esto se hizo inicializando los parámetros del tokenizador global de BLT con un Llama 3.1 preentrenado. Los resultados mostraron que BLT inicializado con Llama 3.1 superó tanto a Llama 3 como a los modelos BLT de referencia entrenados con el mismo número de flops.