L'Architettura BLT di Meta Elimina la Tokenizzazione: Un Nuovo Approccio ai Modelli Linguistici

Introduzione

Meta, insieme a collaboratori dell'Università di Chicago e altre istituzioni, ha recentemente pubblicato un documento rivoluzionario intitolato "Byte Latent Transformer: Patches Scale Better Than Tokens". Questa ricerca ha suscitato notevoli discussioni, in particolare su piattaforme come Hacker News. Il concetto centrale ruota attorno a un nuovo approccio ai modelli linguistici che potrebbe potenzialmente sostituire il tradizionale processo di tokenizzazione. L'entusiasmo è palpabile, con alcuni ricercatori che esprimono impazienza di superare i tokenizzatori. Tuttavia, c'è anche preoccupazione riguardo alla fattibilità di integrare questa nuova tecnologia, dato che la tokenizzazione costituisce la base di molti modelli esistenti.

Il Problema della Tokenizzazione

I modelli linguistici tradizionali si basano sulla tokenizzazione per pre-elaborare i dati. Tuttavia, questo metodo presenta diverse limitazioni. Queste includono:

Una dimensione fissa del vocabolario, che potrebbe non essere adeguata per tutte le lingue o contesti.
Inefficienze nell'elaborazione di dati multilingue o rumorosi.
L'introduzione di distorsioni dovute a euristiche di compressione.

Byte Latent Transformer (BLT)

La ricerca introduce il Byte Latent Transformer (BLT) come soluzione che sfida l'approccio convenzionale della tokenizzazione. Invece di lavorare con i token, BLT modella direttamente flussi di byte grezzi. Raggruppa dinamicamente questi byte in patch in base alla loro entropia, ottimizzando l'efficienza computazionale. Ciò significa che BLT può apprendere direttamente dai dati byte originali senza fare affidamento su un vocabolario statico. BLT è progettato per gestire input diversi e rumorosi in modo più efficace.

Le caratteristiche principali di BLT includono:

Patching Basato sull'Entropia: BLT raggruppa dinamicamente i byte in patch in base alla loro complessità informativa. Questo approccio alloca più risorse computazionali alle regioni ad alta entropia (complesse) e risparmia risorse in aree a bassa entropia.
Scalabilità Efficiente: BLT ottimizza le dimensioni delle patch e utilizza modelli locali leggeri, ottenendo prestazioni comparabili o migliori rispetto ai modelli basati su token come LLaMA. Riduce anche i costi computazionali fino al 50% durante l'inferenza.
Robustezza e Flessibilità: BLT dimostra prestazioni eccezionali in attività che richiedono comprensione a livello di carattere, gestione di input rumorosi o generalizzazione a dati a coda lunga, superando le architetture basate su token in molti benchmark.

Architettura BLT

L'architettura BLT consiste in:

Un grande modello linguistico autoregressivo globale che opera su rappresentazioni di patch.
Due modelli locali più piccoli che codificano sequenze di byte in patch e decodificano le rappresentazioni di patch di nuovo in byte.

Modello Transformer Latente Globale

Il Transformer latente globale è un modello autoregressivo che mappa le rappresentazioni di patch di input alle rappresentazioni di patch di output. Utilizza una maschera di attenzione causale a blocchi.

Encoder Locale

Il modello di encoder locale è un modello leggero basato su Transformer che mappa in modo efficiente le sequenze di byte di input a rappresentazioni di patch espressive. Ha livelli di cross-attenzione dopo ogni livello Transformer, raggruppando le rappresentazioni di byte in rappresentazioni di patch.

Byte Embedding: Le sequenze di byte di input sono incorporate utilizzando una matrice.
Livelli Transformer: Una serie di livelli Transformer e cross-attenzione alternati convertono gli embedding in rappresentazioni di patch. Ciò include una maschera di attenzione causale a blocchi locale.

Decoder Locale

Il decoder locale è un altro modello leggero basato su Transformer. Decodifica le rappresentazioni di patch globali nei byte originali. Utilizza una serie di livelli di cross-attenzione e Transformer. Ciò consente di prevedere le sequenze di byte originali in base ai byte precedentemente decodificati.

Tendenze di Scaling

La ricerca esplora le tendenze di scaling dei modelli a livello di byte per informare l'ulteriore sviluppo del modello BLT. Ciò include:

Confronto delle tendenze in schemi di allenamento computazionalmente ottimali.
Allenamento di modelli con 8 miliardi di parametri su grandi set di dati e valutazione delle prestazioni su attività a valle.
Misurazione delle tendenze di scaling in impostazioni controllate dai costi di inferenza.

Scaling Computazionalmente Ottimale con Parametri Corrispondenti

Utilizzando il set di dati Llama 2, i ricercatori hanno addestrato vari modelli BPE e BLT di diverse dimensioni (da 1 miliardo a 8 miliardi di parametri) con impostazioni computazionalmente ottimali. I flop di allenamento sono stati tracciati rispetto alle prestazioni di modellazione del linguaggio. I modelli BLT hanno eguagliato o superato i modelli BPE, e questa tendenza è persistita all'aumentare delle dimensioni del modello e dei flop.

Set di Dati BLT-1T

Un modello BLT con 8 miliardi di parametri è stato addestrato su un set di dati di alta qualità più grande, BLT-1T. I risultati hanno mostrato che il modello BLT-Entropy ha superato il modello Llama 3 in 4 delle 7 attività. Questo miglioramento è attribuito a un migliore utilizzo del calcolo di allenamento utilizzando patch dinamiche e modellando informazioni a livello di byte invece di token.

Patch Scaling

La ricerca evidenzia che le patch scalano più facilmente dei token. Lo studio sullo scaling della lunghezza delle patch mostra che l'architettura BLT basata su patch può ottenere migliori tendenze di scaling aumentando sia le dimensioni delle patch che del modello.

Robustezza Attraverso la Modellazione dei Byte

Attività a Livello di Carattere

Il modello BLT dimostra una robustezza superiore nei test HellaSwag rumorosi, superando i modelli basati su tokenizzatori in media dell'8%. Ha persino superato i modelli Llama 3.1 addestrati su set di dati più grandi.

Lingue a Basse Risorse

BLT si comporta in modo comparabile o leggermente migliore di Llama 3 in coppie di lingue popolari. Tuttavia, supera significativamente Llama 3 in coppie di lingue a basse risorse, dimostrando l'efficacia della modellazione dei byte nella generalizzazione a sequenze di byte a coda lunga.

Da Llama 3 a BLT

Gli autori hanno studiato un flusso di lavoro in cui i modelli BLT possono utilizzare modelli basati su tokenizzatori pre-addestrati. Ciò è stato fatto inizializzando i parametri del tokenizzatore globale del BLT con un Llama 3.1 pre-addestrato. I risultati hanno mostrato che BLT inizializzato con Llama 3.1 ha superato sia Llama 3 che i modelli BLT di base addestrati con lo stesso numero di flop.