Metas BLT-Architektur eliminiert Tokenisierung

Einführung

Meta hat zusammen mit Forschern der University of Chicago und anderen Institutionen eine bahnbrechende Arbeit mit dem Titel "Byte Latent Transformer: Patches Scale Better Than Tokens" veröffentlicht. Diese Forschung hat zu erheblichen Diskussionen geführt, insbesondere auf Plattformen wie Hacker News. Das Kernkonzept dreht sich um einen neuen Ansatz für Sprachmodelle, der möglicherweise den traditionellen Tokenisierungsprozess ersetzen könnte. Die Aufregung ist spürbar, da einige Forscher den Wunsch äußern, sich von Tokenizern zu verabschieden. Es gibt jedoch auch Bedenken hinsichtlich der Machbarkeit der Integration dieser neuen Technologie, da die Tokenisierung die Grundlage vieler bestehender Modelle bildet.

Das Problem mit der Tokenisierung

Traditionelle Sprachmodelle basieren auf der Tokenisierung, um Daten vorzuverarbeiten. Diese Methode hat jedoch mehrere Einschränkungen. Dazu gehören:

Eine feste Vokabulargröße, die möglicherweise nicht für alle Sprachen oder Kontexte geeignet ist.
Ineffizienzen bei der Verarbeitung mehrsprachiger oder verrauschter Daten.
Die Einführung von Verzerrungen aufgrund von Komprimierungsheuristiken.

Byte Latent Transformer (BLT)

Die Forschung stellt den Byte Latent Transformer (BLT) als eine Lösung vor, die den konventionellen Tokenisierungsansatz in Frage stellt. Anstatt mit Token zu arbeiten, modelliert BLT direkt rohe Byte-Streams. Er gruppiert diese Bytes dynamisch in Patches basierend auf ihrer Entropie, wodurch die Recheneffizienz optimiert wird. Dies bedeutet, dass BLT direkt aus den ursprünglichen Byte-Daten lernen kann, ohne auf ein statisches Vokabular angewiesen zu sein. BLT ist so konzipiert, dass er vielfältige und verrauschte Eingaben effektiver verarbeiten kann.

Zu den Hauptmerkmalen von BLT gehören:

Entropiebasierte Patchbildung: BLT gruppiert Bytes dynamisch in Patches basierend auf ihrer Informationskomplexität. Dieser Ansatz weist Regionen mit hoher Entropie (komplexen) mehr Rechenressourcen zu und spart Ressourcen in Regionen mit niedriger Entropie.
Effiziente Skalierung: BLT optimiert die Patchgrößen und verwendet leichtgewichtige lokale Modelle, wodurch eine Leistung erzielt wird, die mit Token-basierten Modellen wie LLaMA vergleichbar oder besser ist. Außerdem werden die Rechenkosten während der Inferenz um bis zu 50 % reduziert.
Robustheit und Flexibilität: BLT zeigt eine außergewöhnliche Leistung bei Aufgaben, die ein Verständnis auf Zeichenebene erfordern, verrauschte Eingaben verarbeiten oder auf Long-Tail-Daten verallgemeinern, und übertrifft Token-basierte Architekturen in vielen Benchmarks.

BLT-Architektur

Die BLT-Architektur besteht aus:

Einem großen globalen autoregressiven Sprachmodell, das mit Patch-Darstellungen arbeitet.
Zwei kleineren lokalen Modellen, die Byte-Sequenzen in Patches kodieren und Patch-Darstellungen wieder in Bytes dekodieren.

Globales Latentes Transformer-Modell

Der globale latente Transformer ist ein autoregressives Modell, das Eingabe-Patch-Darstellungen auf Ausgabe-Patch-Darstellungen abbildet. Er verwendet eine Block-Kausal-Attention-Maske.

Lokaler Encoder

Das lokale Encoder-Modell ist ein leichtgewichtiges Transformer-basiertes Modell, das Eingabe-Byte-Sequenzen effizient auf aussagekräftige Patch-Darstellungen abbildet. Es verfügt über Cross-Attention-Layer nach jedem Transformer-Layer, die Byte-Darstellungen in Patch-Darstellungen zusammenfassen.

Byte-Embedding: Die Eingabe-Byte-Sequenzen werden mithilfe einer Matrix eingebettet.
Transformer-Layer: Eine Reihe von abwechselnden Transformer- und Cross-Attention-Layern wandelt die Embeddings in Patch-Darstellungen um. Dies beinhaltet eine lokale Block-Kausal-Attention-Maske.

Lokaler Decoder

Der lokale Decoder ist ein weiteres leichtgewichtiges Transformer-basiertes Modell. Er dekodiert globale Patch-Darstellungen in die ursprünglichen Bytes. Er verwendet eine Reihe von Cross-Attention- und Transformer-Layern. Dies ermöglicht die Vorhersage der ursprünglichen Byte-Sequenzen basierend auf zuvor dekodierten Bytes.

Skalierungstrends

Die Forschung untersucht die Skalierungstrends von Byte-Level-Modellen, um die Weiterentwicklung des BLT-Modells zu informieren. Dies umfasst:

Vergleich von Trends bei rechentechnisch optimalen Trainingsschemata.
Training von 8B-Parameter-Modellen auf großen Datensätzen und Bewertung der Leistung bei nachgelagerten Aufgaben.
Messung von Skalierungstrends in Inferenzkosten-kontrollierten Einstellungen.

Parameter-Angepasste Rechentechnisch Optimale Skalierungstrends

Unter Verwendung des Llama-2-Datensatzes trainierten die Forscher verschiedene BPE- und BLT-Modelle unterschiedlicher Größe (1B bis 8B Parameter) mit rechentechnisch optimalen Einstellungen. Die Trainings-Flops wurden gegen die Sprachmodellierungsleistung aufgetragen. Die BLT-Modelle erreichten entweder die gleiche oder eine bessere Leistung als die BPE-Modelle, und dieser Trend setzte sich fort, als die Modellgrößen und Flops zunahmen.

BLT-1T-Datensatz

Ein 8B-Parameter-BLT-Modell wurde auf einem größeren, hochwertigen Datensatz, BLT-1T, trainiert. Die Ergebnisse zeigten, dass das BLT-Entropy-Modell das Llama-3-Modell bei 4 von 7 Aufgaben übertraf. Diese Verbesserung ist auf eine bessere Nutzung der Trainingsberechnung durch dynamische Patches und die Modellierung von Byte-Level-Informationen anstelle von Token zurückzuführen.

Patch-Skalierung

Die Forschung hebt hervor, dass Patches einfacher skalieren als Token. Die Studie zur Patch-Längenskalierung zeigt, dass die Patch-basierte BLT-Architektur durch Erhöhung der Patch- und Modellgrößen bessere Skalierungstrends erzielen kann.

Robustheit durch Byte-Modellierung

Aufgaben auf Zeichenebene

Das BLT-Modell zeigt eine überlegene Robustheit bei verrauschten HellaSwag-Tests und übertrifft Tokenizer-basierte Modelle um durchschnittlich 8 Prozentpunkte. Es übertraf sogar Llama 3.1-Modelle, die auf größeren Datensätzen trainiert wurden.

Low-Resource-Sprachen

BLT schneidet in beliebten Sprachpaaren vergleichbar oder etwas besser ab als Llama 3. Es übertrifft Llama 3 jedoch in Low-Resource-Sprachpaaren deutlich und demonstriert damit die Wirksamkeit der Byte-Modellierung bei der Verallgemeinerung auf Long-Tail-Byte-Sequenzen.

Von Llama 3 zu BLT

Die Autoren untersuchten einen Workflow, bei dem BLT-Modelle vortrainierte Tokenizer-basierte Modelle verwenden können. Dies geschah durch Initialisierung der globalen Tokenizer-Parameter des BLT mit einem vortrainierten Llama 3.1. Die Ergebnisse zeigten, dass BLT, initialisiert mit Llama 3.1, sowohl Llama 3 als auch Baseline-BLT-Modelle, die mit der gleichen Anzahl von Flops trainiert wurden, übertraf.