Meta's BLT Architectuur Elimineert Tokenisatie: Een Nieuwe Aanpak voor Taalmodellen

Inleiding tot de Byte Latent Transformer (BLT)

Meta heeft, in samenwerking met onderzoekers van de Universiteit van Chicago en andere instellingen, een baanbrekend artikel gepubliceerd met de titel “Byte Latent Transformer: Patches Scale Better Than Tokens”. Dit onderzoek heeft veel discussie op gang gebracht, vooral op platforms zoals Hacker News. De kern van het concept draait om een nieuwe benadering van taalmodellen die mogelijk het traditionele tokenisatieproces kan vervangen. Er is merkbare opwinding, waarbij sommige onderzoekers hun enthousiasme uitspreken om over tokenizers heen te stappen. Er is echter ook bezorgdheid over de haalbaarheid van het integreren van deze nieuwe technologie, aangezien tokenisatie de basis vormt van veel bestaande modellen.

De Problemen met Tokenisatie

Traditionele taalmodellen vertrouwen op tokenisatie om gegevens voor te bewerken. Deze methode kent echter verschillende beperkingen:

Een vaste vocabulairegrootte, die mogelijk niet geschikt is voor alle talen of contexten.
Inefficiënties bij het verwerken van meertalige of ruisende gegevens.
De introductie van vertekeningen als gevolg van compressieheuristieken.

De Byte Latent Transformer (BLT)

Het onderzoek introduceert de Byte Latent Transformer (BLT) als een oplossing die de conventionele tokenisatiebenadering uitdaagt. In plaats van met tokens te werken, modelleert BLT direct ruwe byte-streams. Het groepeert deze bytes dynamisch in patches op basis van hun entropie, waardoor de computationele efficiëntie wordt geoptimaliseerd. Dit betekent dat BLT direct van de originele bytegegevens kan leren zonder afhankelijk te zijn van een statisch vocabulaire. BLT is ontworpen om diverse en ruisende invoer effectiever te verwerken.

Belangrijkste kenmerken van BLT zijn:

Entropie-gebaseerde patching: BLT groepeert bytes dynamisch in patches op basis van hun informatiecomplexiteit. Deze aanpak wijst meer computationele middelen toe aan regio's met hoge entropie (complex) en bespaart middelen in gebieden met lage entropie.
Efficiënte schaling: BLT optimaliseert patchgroottes en gebruikt lichtgewicht lokale modellen, waardoor prestaties worden bereikt die vergelijkbaar zijn met of beter dan token-gebaseerde modellen zoals LLaMA. Het vermindert ook de computationele kosten met tot wel 50% tijdens inferentie.
Robuustheid en flexibiliteit: BLT toont uitzonderlijke prestaties bij taken die karakter-niveau begrip vereisen, het verwerken van ruisende invoer of het generaliseren naar lange-staartgegevens, en overtreft token-gebaseerde architecturen in veel benchmarks.

De BLT Architectuur

De BLT-architectuur bestaat uit:

Een groot globaal autoregressief taalmodel dat werkt met patchrepresentaties.
Twee kleinere lokale modellen die byte-sequenties coderen naar patches en patchrepresentaties terug decoderen naar bytes.

Globaal Latent Transformer Model

De globale latente Transformer is een autoregressief model dat invoer patchrepresentaties toewijst aan uitvoer patchrepresentaties. Het gebruikt een blok causaal aandachtmasker.

Lokale Encoder

Het lokale encodermodel is een lichtgewicht Transformer-gebaseerd model dat invoer byte-sequenties efficiënt toewijst aan expressieve patchrepresentaties. Het heeft cross-attention lagen na elke Transformer laag, waarbij byte representaties worden samengevoegd tot patch representaties.

Byte Embedding: De invoer byte-sequenties worden ingebed met behulp van een matrix.
Transformer Lagen: Een reeks afwisselende Transformer- en cross-attention lagen zetten de embeddings om in patchrepresentaties. Dit omvat een lokaal blok causaal aandachtmasker.

Lokale Decoder

De lokale decoder is een ander lichtgewicht Transformer-gebaseerd model. Het decodeert globale patchrepresentaties naar de originele bytes. Het gebruikt een reeks cross-attention en transformer lagen. Dit maakt het mogelijk om de originele byte-sequenties te voorspellen op basis van eerder gedecodeerde bytes.

Schalingstrends

Het onderzoek verkent de schalingstrends van byte-level modellen om verdere BLT modelontwikkeling te informeren. Dit omvat:

Het vergelijken van trends in computationeel optimale trainingsschema's.
Het trainen van modellen met 8B parameters op grote datasets en het evalueren van prestaties op downstream taken.
Het meten van schalingstrends in inferentie kosten-gecontroleerde instellingen.

Parameter-Matched Computationeel Optimale Schalingstrends

Met behulp van de Llama 2 dataset trainden de onderzoekers verschillende BPE- en BLT-modellen van verschillende groottes (1B tot 8B parameters) met computationeel optimale instellingen. De trainingsflops werden uitgezet tegen taalmodelleringsprestaties. De BLT-modellen evenaarden of presteerden beter dan de BPE-modellen, en deze trend bleef aanhouden naarmate de modelgroottes en flops toenamen.

BLT-1T Dataset

Een 8B parameter BLT-model werd getraind op een grotere hoogwaardige dataset, BLT-1T. De resultaten toonden aan dat het BLT-Entropy model beter presteerde dan het Llama 3 model op 4 van de 7 taken. Deze verbetering wordt toegeschreven aan een beter gebruik van trainingsberekeningen met behulp van dynamische patches en het modelleren van byte-level informatie in plaats van tokens.

Patch Schaling

Het onderzoek benadrukt dat patches gemakkelijker schalen dan tokens. De studie naar patchlengte schaling laat zien dat de patch-gebaseerde BLT architectuur betere schalingstrends kan bereiken door zowel patch- als modelgroottes te vergroten.

Robuustheid Door Byte Modellering

Karakter-niveau Taken

Het BLT-model toont superieure robuustheid in ruisende HellaSwag tests en overtreft tokenizer-gebaseerde modellen met gemiddeld 8 procentpunten. Het presteerde zelfs beter dan Llama 3.1 modellen die op grotere datasets waren getraind.

Talen met Weinig Hulpbronnen

BLT presteert vergelijkbaar of iets beter dan Llama 3 in populaire taalparen. Het overtreft Llama 3 echter aanzienlijk in taalparen met weinig hulpbronnen, wat de effectiviteit van byte modellering aantoont bij het generaliseren naar lange-staart byte-sequenties.

Van Llama 3 naar BLT

De auteurs onderzochten een workflow waarbij BLT-modellen voorgeleerde tokenizer-gebaseerde modellen kunnen gebruiken. Dit werd gedaan door de globale tokenizerparameters van BLT te initialiseren met een voorgeleerde Llama 3.1. De resultaten toonden aan dat BLT geïnitialiseerd met Llama 3.1 beter presteerde dan zowel Llama 3 als basislijn BLT-modellen die met hetzelfde aantal flops waren getraind.