Kiến trúc BLT của Meta Loại bỏ Tokenization: Bước đột phá mới trong mô hình ngôn ngữ

Giới thiệu

Meta, cùng với các cộng tác viên từ Đại học Chicago và các tổ chức khác, gần đây đã công bố một bài báo mang tính đột phá có tựa đề "Byte Latent Transformer: Patches Scale Better Than Tokens". Nghiên cứu này đã gây ra nhiều cuộc thảo luận sôi nổi, đặc biệt là trên các nền tảng như Hacker News. Khái niệm cốt lõi xoay quanh một cách tiếp cận mới đối với các mô hình ngôn ngữ, có khả năng thay thế quy trình token hóa truyền thống. Sự phấn khích là rất rõ ràng, với một số nhà nghiên cứu bày tỏ sự háo hức muốn vượt qua các tokenizers. Tuy nhiên, cũng có những lo ngại về tính khả thi của việc tích hợp công nghệ mới này, do token hóa tạo thành nền tảng của nhiều mô hình hiện có.

Vấn đề với Tokenization

Các mô hình ngôn ngữ truyền thống dựa vào tokenization để tiền xử lý dữ liệu. Tuy nhiên, phương pháp này có một số hạn chế. Chúng bao gồm:

Kích thước từ vựng cố định: Điều này có thể không đủ cho tất cả các ngôn ngữ hoặc ngữ cảnh.
Hiệu quả xử lý dữ liệu đa ngôn ngữ hoặc nhiễu thấp: Khả năng xử lý dữ liệu đa ngôn ngữ và dữ liệu nhiễu còn nhiều hạn chế.
Sự xuất hiện của các sai lệch: Các sai lệch có thể phát sinh do các heuristic nén dữ liệu.

Byte Latent Transformer (BLT)

Nghiên cứu giới thiệu Byte Latent Transformer (BLT) như một giải pháp thách thức cách tiếp cận token hóa thông thường. Thay vì làm việc với các token, BLT trực tiếp mô hình hóa các luồng byte thô. Nó nhóm động các byte này thành các patch dựa trên entropy của chúng, tối ưu hóa hiệu quả tính toán. Điều này có nghĩa là BLT có thể học trực tiếp từ dữ liệu byte gốc mà không cần dựa vào một từ vựng tĩnh. BLT được thiết kế để xử lý các đầu vào đa dạng và nhiễu một cách hiệu quả hơn.

Các tính năng chính của BLT bao gồm:

Patching dựa trên Entropy: BLT nhóm động các byte thành các patch dựa trên độ phức tạp thông tin của chúng. Cách tiếp cận này phân bổ nhiều tài nguyên tính toán hơn cho các vùng có entropy cao (phức tạp) và tiết kiệm tài nguyên ở các vùng có entropy thấp.
Khả năng mở rộng hiệu quả: BLT tối ưu hóa kích thước patch và sử dụng các mô hình cục bộ nhẹ, đạt được hiệu suất tương đương hoặc tốt hơn các mô hình dựa trên token như LLaMA. Nó cũng giảm chi phí tính toán tới 50% trong quá trình suy luận.
Tính mạnh mẽ và linh hoạt: BLT thể hiện hiệu suất vượt trội trong các tác vụ yêu cầu hiểu cấp độ ký tự, xử lý các đầu vào nhiễu hoặc khái quát hóa sang dữ liệu đuôi dài, vượt qua các kiến trúc dựa trên token trong nhiều điểm chuẩn.

Kiến trúc BLT

Kiến trúc BLT bao gồm:

Một mô hình ngôn ngữ tự hồi quy toàn cục lớn hoạt động trên các biểu diễn patch.
Hai mô hình cục bộ nhỏ hơn mã hóa các chuỗi byte thành các patch và giải mã các biểu diễn patch trở lại thành byte.

Mô hình Transformer Ẩn Toàn Cục

Mô hình Transformer ẩn toàn cục là một mô hình tự hồi quy ánh xạ các biểu diễn patch đầu vào thành các biểu diễn patch đầu ra. Nó sử dụng mặt nạ chú ý nhân quả khối.

Bộ Mã Hóa Cục Bộ

Mô hình bộ mã hóa cục bộ là một mô hình dựa trên Transformer nhẹ, ánh xạ hiệu quả các chuỗi byte đầu vào thành các biểu diễn patch biểu cảm. Nó có các lớp chú ý chéo sau mỗi lớp Transformer, gộp các biểu diễn byte thành các biểu diễn patch.

Nhúng Byte: Các chuỗi byte đầu vào được nhúng bằng một ma trận.
Các Lớp Transformer: Một loạt các lớp Transformer và chú ý chéo xen kẽ chuyển đổi các nhúng thành các biểu diễn patch. Điều này bao gồm một mặt nạ chú ý nhân quả khối cục bộ.

Bộ Giải Mã Cục Bộ

Bộ giải mã cục bộ là một mô hình dựa trên Transformer nhẹ khác. Nó giải mã các biểu diễn patch toàn cục thành các byte gốc. Nó sử dụng một loạt các lớp chú ý chéo và Transformer. Điều này cho phép dự đoán các chuỗi byte gốc dựa trên các byte đã giải mã trước đó.

Xu hướng Mở rộng

Nghiên cứu khám phá các xu hướng mở rộng của các mô hình cấp độ byte để cung cấp thông tin cho việc phát triển thêm mô hình BLT. Điều này bao gồm:

So sánh các xu hướng trong các lược đồ đào tạo tối ưu về mặt tính toán.
Đào tạo các mô hình tham số 8B trên các tập dữ liệu lớn và đánh giá hiệu suất trên các tác vụ hạ nguồn.
Đo lường các xu hướng mở rộng trong các cài đặt được kiểm soát chi phí suy luận.

Xu hướng Mở rộng Tối ưu về Mặt Tính toán Phù hợp với Tham số

Sử dụng tập dữ liệu Llama 2, các nhà nghiên cứu đã đào tạo các mô hình BPE và BLT khác nhau với các kích thước khác nhau (1B đến 8B tham số) với các cài đặt tối ưu về mặt tính toán. Các flops đào tạo được vẽ trên biểu đồ so với hiệu suất mô hình hóa ngôn ngữ. Các mô hình BLT phù hợp hoặc vượt trội hơn các mô hình BPE và xu hướng này vẫn tiếp diễn khi kích thước mô hình và flops tăng lên.

Tập Dữ Liệu BLT-1T

Một mô hình BLT tham số 8B đã được đào tạo trên một tập dữ liệu chất lượng cao lớn hơn, BLT-1T. Kết quả cho thấy mô hình BLT-Entropy vượt trội hơn mô hình Llama 3 trong 4 trên 7 tác vụ. Sự cải thiện này là do việc sử dụng tốt hơn tính toán đào tạo bằng cách sử dụng các patch động và mô hình hóa thông tin cấp byte thay vì các token.

Mở rộng Patch

Nghiên cứu nhấn mạnh rằng các patch mở rộng dễ dàng hơn các token. Nghiên cứu về việc mở rộng độ dài patch cho thấy kiến trúc BLT dựa trên patch có thể đạt được các xu hướng mở rộng tốt hơn bằng cách tăng cả kích thước patch và mô hình.

Tính Mạnh Mẽ Thông Qua Mô Hình Hóa Byte

Các Tác Vụ Cấp Độ Ký Tự

Mô hình BLT thể hiện tính mạnh mẽ vượt trội trong các thử nghiệm HellaSwag nhiễu, vượt quá các mô hình dựa trên tokenizer trung bình 8 điểm phần trăm. Nó thậm chí còn vượt trội hơn Llama 3.1 được đào tạo trên các tập dữ liệu lớn hơn.

Ngôn Ngữ Ít Tài Nguyên

BLT hoạt động tương đương hoặc tốt hơn một chút so với Llama 3 trong các cặp ngôn ngữ phổ biến. Tuy nhiên, nó vượt trội hơn đáng kể so với Llama 3 trong các cặp ngôn ngữ ít tài nguyên, thể hiện hiệu quả của mô hình hóa byte trong việc khái quát hóa các chuỗi byte đuôi dài.

Từ Llama 3 Đến BLT

Các tác giả đã điều tra một quy trình làm việc trong đó các mô hình BLT có thể sử dụng các mô hình dựa trên tokenizer được đào tạo trước. Điều này được thực hiện bằng cách khởi tạo các tham số tokenizer toàn cục của BLT bằng Llama 3.1 được đào tạo trước. Kết quả cho thấy BLT được khởi tạo bằng Llama 3.1 vượt trội hơn cả Llama 3 và các mô hình BLT cơ bản được đào tạo với cùng số lượng flops.