Seni Bina BLT Meta Menghapuskan Tokenisasi: Pendekatan Baru dalam Model Bahasa

Pengenalan Kepada Seni Bina BLT Meta

Meta, bersama-sama dengan kolaborator dari Universiti Chicago dan institusi lain, baru-baru ini menerbitkan kertas kerja penting bertajuk "Byte Latent Transformer: Patches Scale Better Than Tokens." Penyelidikan ini telah mencetuskan perbincangan yang besar, terutamanya di platform seperti Hacker News. Konsep teras berkisar pada pendekatan baru terhadap model bahasa yang berpotensi menggantikan proses tokenisasi tradisional. Kegembiraan jelas dirasakan, dengan beberapa penyelidik menyatakan keinginan untuk bergerak melampaui tokenizers. Walau bagaimanapun, terdapat juga kebimbangan tentang kemungkinan mengintegrasikan teknologi baru ini, memandangkan tokenisasi membentuk asas banyak model sedia ada.

Masalah dengan Tokenisasi

Model bahasa tradisional bergantung pada tokenisasi untuk memproses data. Walau bagaimanapun, kaedah ini mempunyai beberapa batasan. Ini termasuk:

Saiz perbendaharaan kata tetap, yang mungkin tidak mencukupi untuk semua bahasa atau konteks.
Ketidakcekapan dalam memproses data berbilang bahasa atau berisik.
Pengenalan bias disebabkan oleh heuristik pemampatan.

Byte Latent Transformer (BLT)

Penyelidikan ini memperkenalkan Byte Latent Transformer (BLT) sebagai penyelesaian yang mencabar pendekatan tokenisasi konvensional. Daripada bekerja dengan token, BLT secara langsung memodelkan aliran bait mentah. Ia secara dinamik mengumpulkan bait ini ke dalam patches berdasarkan entropinya, mengoptimumkan kecekapan pengiraan. Ini bermakna BLT boleh belajar secara langsung daripada data bait asal tanpa bergantung pada perbendaharaan kata statik. BLT direka untuk mengendalikan pelbagai input yang berisik dengan lebih berkesan.

Ciri-ciri utama BLT termasuk:

Penambalan Berasaskan Entropi: BLT secara dinamik mengumpulkan bait ke dalam patches berdasarkan kerumitan maklumatnya. Pendekatan ini memperuntukkan lebih banyak sumber pengiraan kepada wilayah high-entropy (kompleks) dan menjimatkan sumber di kawasan low-entropy.
Penskalaan Cekap: BLT mengoptimumkan saiz patch dan menggunakan model tempatan yang ringan, mencapai prestasi yang setanding atau lebih baik daripada model berasaskan token seperti LLaMA. Ia juga mengurangkan kos pengiraan sehingga 50% semasa inferens.
Keteguhan dan Fleksibiliti: BLT menunjukkan prestasi yang luar biasa dalam tugas yang memerlukan pemahaman peringkat aksara, mengendalikan input berisik, atau menggeneralisasikan kepada data ekor panjang, mengatasi seni bina berasaskan token dalam banyak penanda aras.

Seni Bina BLT

Seni bina BLT terdiri daripada:

Model bahasa autoregresif global yang besar yang beroperasi pada representasi patch.
Dua model tempatan yang lebih kecil yang mengekod urutan bait ke dalam patches dan menyahkod representasi patch kembali ke dalam bait.

Model Transformer Laten Global

Transformer laten global ialah model autoregresif yang memetakan representasi patch input kepada representasi patch output. Ia menggunakan topeng perhatian kausal blok.

Pengekod Tempatan

Model pengekod tempatan ialah model berasaskan Transformer yang ringan yang memetakan urutan bait input secara cekap kepada representasi patch yang ekspresif. Ia mempunyai lapisan cross-attention selepas setiap lapisan Transformer, mengumpulkan representasi bait ke dalam representasi patch.

Penyisipan Bait: Urutan bait input dimasukkan menggunakan matriks.
Lapisan Transformer: Satu siri lapisan Transformer dan cross-attention berselang-seli menukarkan penyisipan ke dalam representasi patch. Ini termasuk topeng perhatian kausal blok tempatan.

Penyahkod Tempatan

Penyahkod tempatan adalah satu lagi model berasaskan Transformer yang ringan. Ia menyahkod representasi patch global ke dalam bait asal. Ia menggunakan satu siri lapisan cross-attention dan transformer. Ini membolehkan meramalkan urutan bait asal berdasarkan bait yang telah dinyahkod sebelumnya.

Trend Penskalaan

Penyelidikan ini meneroka trend penskalaan model peringkat bait untuk memaklumkan pembangunan model BLT selanjutnya. Ini termasuk:

Membandingkan trend dalam skim latihan yang optimum secara pengiraan.
Melatih model parameter 8B pada set data yang besar dan menilai prestasi pada tugas downstream.
Mengukur trend penskalaan dalam tetapan terkawal kos inferens.

Trend Penskalaan Optimal Pengiraan Parameter-Dipeadankan

Menggunakan set data Llama 2, para penyelidik melatih pelbagai model BPE dan BLT dengan saiz yang berbeza (parameter 1B hingga 8B) dengan tetapan yang optimum secara pengiraan. Flop latihan diplotkan berbanding prestasi pemodelan bahasa. Model BLT sama ada sepadan atau mengatasi model BPE, dan trend ini berterusan apabila saiz model dan flop meningkat.

Set Data BLT-1T

Model BLT parameter 8B telah dilatih pada set data berkualiti tinggi yang lebih besar, BLT-1T. Hasilnya menunjukkan bahawa model BLT-Entropi mengatasi model Llama 3 pada 4 daripada 7 tugas. Peningkatan ini dikaitkan dengan penggunaan yang lebih baik bagi pengiraan latihan menggunakan patches dinamik dan pemodelan maklumat peringkat bait dan bukannya token.

Penskalaan Patch

Penyelidikan ini menyoroti bahawa patches lebih mudah diskalakan daripada token. Kajian tentang penskalaan panjang patch menunjukkan bahawa seni bina BLT berasaskan patch boleh mencapai trend penskalaan yang lebih baik dengan meningkatkan kedua-dua patch dan saiz model.

Keteguhan Melalui Pemodelan Bait

Tugas Peringkat Aksara

Model BLT menunjukkan keteguhan yang unggul dalam ujian HellaSwag yang berisik, melebihi model berasaskan tokenizer dengan purata 8 mata peratusan. Ia malah mengatasi model Llama 3.1 yang dilatih pada set data yang lebih besar.

Bahasa Sumber Rendah

BLT berprestasi setanding atau sedikit lebih baik daripada Llama 3 dalam pasangan bahasa yang popular. Walau bagaimanapun, ia jauh mengatasi Llama 3 dalam pasangan bahasa sumber rendah, menunjukkan keberkesanan pemodelan bait dalam menggeneralisasikan kepada urutan bait ekor panjang.

Daripada Llama 3 kepada BLT

Para penulis menyiasat alur kerja di mana model BLT boleh menggunakan model berasaskan tokenizer yang telah dipratrain. Ini dilakukan dengan memulakan parameter tokenizer global BLT dengan Llama 3.1 yang telah dipratrain. Hasilnya menunjukkan bahawa BLT yang dimulakan dengan Llama 3.1 mengatasi kedua-dua Llama 3 dan model BLT asas yang dilatih dengan bilangan flop yang sama.