L'architecture BLT de Meta : une révolution sans tokenisation pour les modèles linguistiques

Introduction

Meta, en collaboration avec l'Université de Chicago et d'autres institutions, a récemment publié un article novateur intitulé "Byte Latent Transformer: Patches Scale Better Than Tokens". Cette recherche a suscité de vives discussions, notamment sur des plateformes comme Hacker News. Le concept central repose sur une nouvelle approche des modèles linguistiques qui pourrait potentiellement remplacer le processus traditionnel de tokenisation. L'enthousiasme est palpable, certains chercheurs exprimant leur impatience de dépasser les tokeniseurs. Cependant, des inquiétudes subsistent quant à la faisabilité de l'intégration de cette nouvelle technologie, étant donné que la tokenisation constitue la base de nombreux modèles existants.

Le Problème de la Tokenisation

Les modèles linguistiques traditionnels s'appuient sur la tokenisation pour prétraiter les données. Cependant, cette méthode présente plusieurs limitations. Celles-ci comprennent :

Une taille de vocabulaire fixe, qui peut ne pas être adaptée à toutes les langues ou tous les contextes.
Des inefficacités dans le traitement des données multilingues ou bruitées.
L'introduction de biais dus aux heuristiques de compression.

Byte Latent Transformer (BLT)

La recherche introduit le Byte Latent Transformer (BLT) comme une solution qui remet en question l'approche conventionnelle de la tokenisation. Au lieu de travailler avec des tokens, le BLT modélise directement les flux d'octets bruts. Il regroupe dynamiquement ces octets en patchs en fonction de leur entropie, optimisant ainsi l'efficacité computationnelle. Cela signifie que le BLT peut apprendre directement à partir des données d'octets originales sans dépendre d'un vocabulaire statique. Le BLT est conçu pour traiter des entrées diverses et bruitées plus efficacement.

Les caractéristiques clés du BLT comprennent :

Patching Basé sur l'Entropie : Le BLT regroupe dynamiquement les octets en patchs en fonction de leur complexité d'information. Cette approche alloue plus de ressources computationnelles aux régions à forte entropie (complexes) et économise des ressources dans les zones à faible entropie.
Mise à l'Échelle Efficace : Le BLT optimise les tailles de patchs et utilise des modèles locaux légers, atteignant des performances comparables ou supérieures aux modèles basés sur des tokens comme LLaMA. Il réduit également les coûts de calcul jusqu'à 50 % pendant l'inférence.
Robustesse et Flexibilité : Le BLT démontre des performances exceptionnelles dans les tâches qui nécessitent une compréhension au niveau du caractère, la gestion d'entrées bruitées ou la généralisation à des données à longue traîne, surpassant les architectures basées sur des tokens dans de nombreux benchmarks.

Architecture du BLT

L'architecture du BLT se compose de :

Un grand modèle linguistique autorégressif global qui opère sur des représentations de patchs.
Deux modèles locaux plus petits qui encodent les séquences d'octets en patchs et décodent les représentations de patchs en octets.

Modèle Global Latent Transformer

Le Transformer latent global est un modèle autorégressif qui mappe les représentations de patchs d'entrée aux représentations de patchs de sortie. Il utilise un masque d'attention causale de bloc.

Encodeur Local

Le modèle d'encodeur local est un modèle léger basé sur Transformer qui mappe efficacement les séquences d'octets d'entrée à des représentations de patchs expressives. Il comporte des couches d'attention croisée après chaque couche Transformer, regroupant les représentations d'octets en représentations de patchs.

Intégration d'Octets : Les séquences d'octets d'entrée sont intégrées à l'aide d'une matrice.
Couches Transformer : Une série de couches Transformer et d'attention croisée alternées convertissent les intégrations en représentations de patchs. Cela comprend un masque d'attention causale de bloc local.

Décodeur Local

Le décodeur local est un autre modèle léger basé sur Transformer. Il décode les représentations de patchs globaux en octets originaux. Il utilise une série de couches d'attention croisée et de transformateur. Cela permet de prédire les séquences d'octets originales en fonction des octets précédemment décodés.

Tendances de Mise à l'Échelle

La recherche explore les tendances de mise à l'échelle des modèles au niveau des octets pour éclairer le développement futur du modèle BLT. Cela comprend :

La comparaison des tendances dans les schémas de formation computationnellement optimaux.
La formation de modèles de 8 milliards de paramètres sur de grands ensembles de données et l'évaluation des performances sur des tâches en aval.
La mesure des tendances de mise à l'échelle dans des environnements à coûts d'inférence contrôlés.

Mise à l'Échelle Computationnellement Optimale Correspondant aux Paramètres

En utilisant l'ensemble de données Llama 2, les chercheurs ont formé divers modèles BPE et BLT de différentes tailles (1 milliard à 8 milliards de paramètres) avec des paramètres computationnellement optimaux. Les flops d'entraînement ont été tracés par rapport aux performances de modélisation du langage. Les modèles BLT ont égalé ou surpassé les modèles BPE, et cette tendance a persisté à mesure que la taille des modèles et les flops augmentaient.

Ensemble de Données BLT-1T

Un modèle BLT de 8 milliards de paramètres a été formé sur un ensemble de données de haute qualité plus important, BLT-1T. Les résultats ont montré que le modèle BLT-Entropy a surpassé le modèle Llama 3 sur 4 des 7 tâches. Cette amélioration est attribuée à une meilleure utilisation du calcul d'entraînement en utilisant des patchs dynamiques et en modélisant les informations au niveau des octets au lieu des tokens.

Mise à l'Échelle des Patchs

La recherche souligne que les patchs se mettent à l'échelle plus facilement que les tokens. L'étude sur la mise à l'échelle de la longueur des patchs montre que l'architecture BLT basée sur les patchs peut obtenir de meilleures tendances de mise à l'échelle en augmentant à la fois la taille des patchs et des modèles.

Robustesse Grâce à la Modélisation des Octets

Tâches au Niveau du Caractère

Le modèle BLT démontre une robustesse supérieure dans les tests HellaSwag bruités, dépassant les modèles basés sur des tokeniseurs de 8 points de pourcentage en moyenne. Il a même surpassé les modèles Llama 3.1 formés sur des ensembles de données plus importants.

Langues à Faibles Ressources

Le BLT fonctionne de manière comparable ou légèrement mieux que Llama 3 dans les paires de langues populaires. Cependant, il surpasse significativement Llama 3 dans les paires de langues à faibles ressources, démontrant l'efficacité de la modélisation des octets pour se généraliser aux séquences d'octets à longue traîne.

De Llama 3 à BLT

Les auteurs ont étudié un flux de travail où les modèles BLT peuvent utiliser des modèles basés sur des tokeniseurs préentraînés. Cela a été fait en initialisant les paramètres du tokeniseur global du BLT avec un Llama 3.1 préentraîné. Les résultats ont montré que le BLT initialisé avec Llama 3.1 a surpassé à la fois Llama 3 et les modèles BLT de base formés avec le même nombre de flops.