Arsitektur BLT Meta Menghilangkan Tokenisasi: Pendekatan Baru untuk Model Bahasa

Pendahuluan

Meta, bersama dengan kolaborator dari University of Chicago dan institusi lain, baru-baru ini menerbitkan sebuah makalah terobosan berjudul "Byte Latent Transformer: Patches Scale Better Than Tokens." Penelitian ini telah memicu diskusi yang cukup besar, terutama di platform seperti Hacker News. Konsep intinya berkisar pada pendekatan baru untuk model bahasa yang berpotensi menggantikan proses tokenisasi tradisional. Kegembiraan terasa, dengan beberapa peneliti menyatakan keinginan untuk melampaui tokenizer. Namun, ada juga kekhawatiran tentang kelayakan mengintegrasikan teknologi baru ini, mengingat bahwa tokenisasi membentuk dasar dari banyak model yang ada.

Masalah dengan Tokenisasi

Model bahasa tradisional mengandalkan tokenisasi untuk memproses data. Namun, metode ini memiliki beberapa keterbatasan. Ini termasuk:

Ukuran kosakata tetap, yang mungkin tidak memadai untuk semua bahasa atau konteks.
Inefisiensi dalam memproses data multibahasa atau berisik.
Pengenalan bias karena heuristik kompresi.

Byte Latent Transformer (BLT)

Penelitian ini memperkenalkan Byte Latent Transformer (BLT) sebagai solusi yang menantang pendekatan tokenisasi konvensional. Alih-alih bekerja dengan token, BLT langsung memodelkan aliran byte mentah. Ini secara dinamis mengelompokkan byte-byte ini menjadi patch berdasarkan entropinya, mengoptimalkan efisiensi komputasi. Ini berarti bahwa BLT dapat belajar langsung dari data byte asli tanpa bergantung pada kosakata statis. BLT dirancang untuk menangani input yang beragam dan berisik dengan lebih efektif.

Fitur utama BLT meliputi:

Patching Berbasis Entropi: BLT secara dinamis mengelompokkan byte menjadi patch berdasarkan kompleksitas informasinya. Pendekatan ini mengalokasikan lebih banyak sumber daya komputasi ke wilayah entropi tinggi (kompleks) dan menghemat sumber daya di area entropi rendah.
Penskalaan Efisien: BLT mengoptimalkan ukuran patch dan menggunakan model lokal ringan, mencapai kinerja yang sebanding atau lebih baik daripada model berbasis token seperti LLaMA. Ini juga mengurangi biaya komputasi hingga 50% selama inferensi.
Ketahanan dan Fleksibilitas: BLT menunjukkan kinerja luar biasa dalam tugas-tugas yang memerlukan pemahaman tingkat karakter, menangani input berisik, atau menggeneralisasi ke data ekor panjang, melampaui arsitektur berbasis token di banyak tolok ukur.

Arsitektur BLT

Arsitektur BLT terdiri dari:

Model bahasa autoregresif global besar yang beroperasi pada representasi patch.
Dua model lokal yang lebih kecil yang mengkodekan urutan byte menjadi patch dan mendekode representasi patch kembali menjadi byte.

Model Transformer Laten Global

Transformer laten global adalah model autoregresif yang memetakan representasi patch input ke representasi patch output. Ini menggunakan topeng perhatian kausal blok.

Encoder Lokal

Model encoder lokal adalah model berbasis Transformer ringan yang secara efisien memetakan urutan byte input ke representasi patch ekspresif. Ia memiliki lapisan cross-attention setelah setiap lapisan Transformer, mengumpulkan representasi byte menjadi representasi patch.

Penyematan Byte: Urutan byte input disematkan menggunakan matriks.
Lapisan Transformer: Serangkaian lapisan Transformer dan cross-attention bergantian mengubah penyematan menjadi representasi patch. Ini termasuk topeng perhatian kausal blok lokal.

Decoder Lokal

Decoder lokal adalah model berbasis Transformer ringan lainnya. Ini mendekode representasi patch global menjadi byte asli. Ini menggunakan serangkaian lapisan cross-attention dan transformer. Ini memungkinkan untuk memprediksi urutan byte asli berdasarkan byte yang sebelumnya didekodekan.

Tren Penskalaan

Penelitian ini mengeksplorasi tren penskalaan model tingkat byte untuk menginformasikan pengembangan model BLT lebih lanjut. Ini termasuk:

Membandingkan tren dalam skema pelatihan yang optimal secara komputasi.
Melatih model parameter 8B pada dataset besar dan mengevaluasi kinerja pada tugas-tugas hilir.
Mengukur tren penskalaan dalam pengaturan terkontrol biaya inferensi.

Tren Penskalaan Optimal Komputasi yang Cocok Parameter

Menggunakan dataset Llama 2, para peneliti melatih berbagai model BPE dan BLT dengan ukuran berbeda (1B hingga 8B parameter) dengan pengaturan optimal komputasi. Flop pelatihan diplot terhadap kinerja pemodelan bahasa. Model BLT baik menyamai atau mengungguli model BPE, dan tren ini berlanjut seiring dengan peningkatan ukuran model dan flop.

Dataset BLT-1T

Model BLT parameter 8B dilatih pada dataset berkualitas tinggi yang lebih besar, BLT-1T. Hasilnya menunjukkan bahwa model BLT-Entropy mengungguli model Llama 3 pada 4 dari 7 tugas. Peningkatan ini dikaitkan dengan penggunaan komputasi pelatihan yang lebih baik menggunakan patch dinamis dan pemodelan informasi tingkat byte alih-alih token.

Penskalaan Patch

Penelitian ini menyoroti bahwa patch lebih mudah diskalakan daripada token. Studi tentang penskalaan panjang patch menunjukkan bahwa arsitektur BLT berbasis patch dapat mencapai tren penskalaan yang lebih baik dengan meningkatkan ukuran patch dan model.

Ketahanan Melalui Pemodelan Byte

Tugas Tingkat Karakter

Model BLT menunjukkan ketahanan yang unggul dalam tes HellaSwag yang berisik, melebihi model berbasis tokenizer dengan rata-rata 8 poin persentase. Bahkan mengungguli model Llama 3.1 yang dilatih pada dataset yang lebih besar.

Bahasa Sumber Daya Rendah

BLT berkinerja sebanding atau sedikit lebih baik daripada Llama 3 dalam pasangan bahasa populer. Namun, ia secara signifikan melampaui Llama 3 dalam pasangan bahasa sumber daya rendah, menunjukkan efektivitas pemodelan byte dalam menggeneralisasi ke urutan byte ekor panjang.

Dari Llama 3 ke BLT

Para penulis menyelidiki alur kerja di mana model BLT dapat menggunakan model berbasis tokenizer yang telah dilatih sebelumnya. Ini dilakukan dengan menginisialisasi parameter tokenizer global BLT dengan Llama 3.1 yang telah dilatih sebelumnya. Hasilnya menunjukkan bahwa BLT yang diinisialisasi dengan Llama 3.1 mengungguli baik Llama 3 maupun model BLT dasar yang dilatih dengan jumlah flop yang sama.