Architektura BLT Meta eliminuje tokenizację

Wprowadzenie do BLT i problem tokenizacji

Meta, wraz z naukowcami z University of Chicago i innych instytucji, opublikowała przełomową pracę zatytułowaną "Byte Latent Transformer: Patches Scale Better Than Tokens". To badanie wywołało szeroką dyskusję, szczególnie na platformach takich jak Hacker News. Główna koncepcja opiera się na nowym podejściu do modeli językowych, które potencjalnie mogłoby zastąpić tradycyjny proces tokenizacji. Entuzjazm jest wyczuwalny, a niektórzy badacze wyrażają chęć odejścia od tokenizatorów. Jednak pojawiają się również obawy co do możliwości wdrożenia tej nowej technologii, biorąc pod uwagę, że tokenizacja stanowi podstawę wielu istniejących modeli.

Tradycyjne modele językowe opierają się na tokenizacji w celu wstępnego przetwarzania danych. Metoda ta ma jednak kilka ograniczeń. Obejmują one:

Stały rozmiar słownika, który może nie być odpowiedni dla wszystkich języków lub kontekstów.
Niewydajność w przetwarzaniu danych wielojęzycznych lub zaszumionych.
Wprowadzenie uprzedzeń z powodu heurystyki kompresji.

Byte Latent Transformer (BLT) jako rozwiązanie

Badanie wprowadza Byte Latent Transformer (BLT) jako rozwiązanie, które podważa konwencjonalne podejście do tokenizacji. Zamiast pracować z tokenami, BLT bezpośrednio modeluje surowe strumienie bajtów. Dynamicznie grupuje te bajty w patche na podstawie ich entropii, optymalizując wydajność obliczeniową. Oznacza to, że BLT może uczyć się bezpośrednio z oryginalnych danych bajtowych, bez polegania na statycznym słowniku. BLT jest zaprojektowany, aby skuteczniej obsługiwać różnorodne i zaszumione dane wejściowe.

Kluczowe cechy BLT obejmują:

Patchowanie oparte na entropii: BLT dynamicznie grupuje bajty w patche na podstawie ich złożoności informacyjnej. Takie podejście przydziela więcej zasobów obliczeniowych do regionów o wysokiej entropii (złożonych) i oszczędza zasoby w obszarach o niskiej entropii.
Wydajne skalowanie: BLT optymalizuje rozmiary patchy i wykorzystuje lekkie modele lokalne, osiągając wydajność porównywalną lub lepszą niż modele oparte na tokenach, takie jak LLaMA. Zmniejsza również koszty obliczeniowe nawet o 50% podczas wnioskowania.
Solidność i elastyczność: BLT wykazuje wyjątkową wydajność w zadaniach, które wymagają zrozumienia na poziomie znaków, obsługi zaszumionych danych wejściowych lub generalizacji do danych z długim ogonem, przewyższając architektury oparte na tokenach w wielu testach porównawczych.

Architektura BLT

Architektura BLT składa się z:

Dużego globalnego autoregresyjnego modelu językowego, który działa na reprezentacjach patchy.
Dwóch mniejszych modeli lokalnych, które kodują sekwencje bajtów w patche i dekodują reprezentacje patchy z powrotem do bajtów.

Globalny Model Latent Transformer

Globalny latent Transformer to model autoregresyjny, który mapuje reprezentacje patchy wejściowych na reprezentacje patchy wyjściowych. Wykorzystuje blokową maskę uwagi przyczynowej.

Lokalny Koder

Model lokalnego kodera to lekki model oparty na Transformerze, który efektywnie mapuje sekwencje bajtów wejściowych na ekspresyjne reprezentacje patchy. Ma warstwy uwagi krzyżowej po każdej warstwie Transformera, łącząc reprezentacje bajtów w reprezentacje patchy.

Osadzanie bajtów: Sekwencje bajtów wejściowych są osadzane za pomocą macierzy.
Warstwy Transformera: Seria naprzemiennych warstw Transformera i uwagi krzyżowej przekształca osadzenia w reprezentacje patchy. Obejmuje to lokalną blokową maskę uwagi przyczynowej.

Lokalny Dekoder

Lokalny dekoder to kolejny lekki model oparty na Transformerze. Dekoduje globalne reprezentacje patchy do oryginalnych bajtów. Wykorzystuje serię warstw uwagi krzyżowej i transformera. Pozwala to na przewidywanie oryginalnych sekwencji bajtów na podstawie wcześniej zdekodowanych bajtów.

Trendy skalowania

Badanie analizuje trendy skalowania modeli na poziomie bajtów, aby poinformować o dalszym rozwoju modelu BLT. Obejmuje to:

Porównanie trendów w obliczeniowo optymalnych schematach uczenia.
Trenowanie modeli z 8 miliardami parametrów na dużych zbiorach danych i ocenę wydajności w zadaniach downstream.
Pomiar trendów skalowania w ustawieniach o kontrolowanym koszcie wnioskowania.

Trendy skalowania optymalnego obliczeniowo dla parametrów

Korzystając z zestawu danych Llama 2, naukowcy przeszkolili różne modele BPE i BLT o różnych rozmiarach (od 1 miliarda do 8 miliardów parametrów) z obliczeniowo optymalnymi ustawieniami. Flopsy treningowe zostały naniesione na wykresie w stosunku do wydajności modelowania języka. Modele BLT albo dorównywały, albo przewyższały modele BPE, a trend ten utrzymywał się wraz ze wzrostem rozmiarów modeli i flopów.

Zbiór danych BLT-1T

Model BLT z 8 miliardami parametrów został przeszkolony na większym, wysokiej jakości zestawie danych, BLT-1T. Wyniki pokazały, że model BLT-Entropy przewyższył model Llama 3 w 4 z 7 zadań. Poprawa ta jest przypisywana lepszemu wykorzystaniu obliczeń treningowych przy użyciu dynamicznych patchy i modelowaniu informacji na poziomie bajtów zamiast tokenów.

Skalowanie patchy

Badanie podkreśla, że patche skalują się łatwiej niż tokeny. Badanie nad skalowaniem długości patchy pokazuje, że architektura BLT oparta na patchach może osiągnąć lepsze trendy skalowania poprzez zwiększenie zarówno rozmiarów patchy, jak i modeli.

Solidność dzięki modelowaniu bajtów

Zadania na poziomie znaków

Model BLT wykazuje doskonałą solidność w zaszumionych testach HellaSwag, przewyższając modele oparte na tokenizatorach średnio o 8 punktów procentowych. Przewyższył nawet modele Llama 3.1 przeszkolone na większych zbiorach danych.

Języki o ograniczonych zasobach

BLT działa porównywalnie lub nieco lepiej niż Llama 3 w popularnych parach językowych. Jednak znacznie przewyższa Llama 3 w parach językowych o ograniczonych zasobach, co demonstruje skuteczność modelowania bajtów w generalizowaniu do sekwencji bajtów z długim ogonem.

Od Llama 3 do BLT

Autorzy zbadali przepływ pracy, w którym modele BLT mogą korzystać z wstępnie przeszkolonych modeli opartych na tokenizatorach. Zrobiono to, inicjalizując globalne parametry tokenizatora BLT za pomocą wstępnie przeszkolonego Llama 3.1. Wyniki pokazały, że BLT zainicjowany za pomocą Llama 3.1 przewyższył zarówno Llama 3, jak i bazowe modele BLT przeszkolone przy tej samej liczbie flopów.