MetaのBLTアーキテクチャがトークン化を不要にする：パッチがトークンよりも優れたスケーリングを実現

はじめに

Metaは、シカゴ大学などの研究機関との共同研究により、「Byte Latent Transformer: Patches Scale Better Than Tokens（バイト潜在トランスフォーマー：パッチはトークンよりも優れたスケーリングを実現する）」という画期的な論文を発表しました。この研究は、特にHacker Newsのようなプラットフォームで大きな議論を呼んでいます。その中心概念は、従来のトークン化プロセスを置き換える可能性のある、言語モデルへの新しいアプローチです。一部の研究者はトークナイザーからの脱却に意欲を示しており、その興奮は目に見えるようです。しかし、トークン化が多くの既存モデルの基礎となっていることを考えると、この新しい技術を統合することの実現可能性についても懸念があります。

トークン化の問題点

従来の言語モデルは、データを前処理するためにトークン化に依存しています。しかし、この方法にはいくつかの制限があります。

固定された語彙サイズ: すべての言語や文脈に対応するには不十分な場合があります。
多言語データやノイズの多いデータの処理における非効率性:
圧縮ヒューリスティクスによるバイアスの導入:

Byte Latent Transformer (BLT)

この研究では、従来のトークン化アプローチに挑戦するソリューションとして、Byte Latent Transformer（BLT）を紹介しています。BLTはトークンではなく、生のバイトストリームを直接モデル化します。バイトを情報エントロピーに基づいて動的にパッチにグループ化することで、計算効率を最適化します。つまり、BLTは静的な語彙に頼ることなく、元のバイトデータから直接学習できます。BLTは、多様でノイズの多い入力をより効果的に処理するように設計されています。

BLTの主な機能は以下のとおりです。

エントロピーベースのパッチング: BLTは、バイトを情報量に基づいて動的にパッチにグループ化します。このアプローチにより、高エントロピー（複雑）な領域に多くの計算リソースを割り当て、低エントロピー領域ではリソースを節約します。
効率的なスケーリング: BLTはパッチサイズを最適化し、軽量なローカルモデルを使用することで、LLaMAのようなトークンベースのモデルと同等以上のパフォーマンスを達成します。また、推論時の計算コストを最大50%削減します。
堅牢性と柔軟性: BLTは、文字レベルの理解、ノイズの多い入力の処理、長尾データへの一般化を必要とするタスクで、優れたパフォーマンスを発揮し、多くのベンチマークでトークンベースのアーキテクチャを凌駕しています。

BLTアーキテクチャ

BLTアーキテクチャは、以下の要素で構成されています。

パッチ表現で動作する大規模なグローバル自己回帰言語モデル
バイトシーケンスをパッチにエンコードし、パッチ表現をバイトに戻す2つの小型ローカルモデル

グローバル潜在トランスフォーマーモデル

グローバル潜在トランスフォーマーは、入力パッチ表現を出力パッチ表現にマッピングする自己回帰モデルです。ブロック因果アテンションマスクを使用します。

ローカルエンコーダー

ローカルエンコーダーモデルは、入力バイトシーケンスを表現力豊かなパッチ表現に効率的にマッピングする軽量なトランスフォーマーベースのモデルです。各トランスフォーマーレイヤーの後ろにクロスアテンションレイヤーがあり、バイト表現をパッチ表現にプールします。

バイト埋め込み: 入力バイトシーケンスは行列を使用して埋め込まれます。
トランスフォーマーレイヤー: 一連の交互のトランスフォーマーレイヤーとクロスアテンションレイヤーが、埋め込みをパッチ表現に変換します。これには、ローカルブロック因果アテンションマスクが含まれます。

ローカルデコーダー

ローカルデコーダーも軽量なトランスフォーマーベースのモデルです。グローバルパッチ表現を元のバイトにデコードします。一連のクロスアテンションレイヤーとトランスフォーマーレイヤーを使用します。これにより、以前にデコードされたバイトに基づいて元のバイトシーケンスを予測できます。

スケーリングの傾向

この研究では、今後のBLTモデル開発に役立てるため、バイトレベルモデルのスケーリング傾向を調査しています。これには、以下の内容が含まれます。

計算的に最適なトレーニングスキームの傾向の比較。
大規模データセットで8Bパラメータモデルをトレーニングし、ダウンストリームタスクでのパフォーマンスを評価。
推論コスト制御設定におけるスケーリング傾向の測定。

パラメータマッチングによる計算的に最適なスケーリング傾向

Llama 2データセットを使用して、研究者たちはさまざまなサイズのBPEモデルとBLTモデル（1Bから8Bパラメータ）を計算的に最適な設定でトレーニングしました。トレーニングフロップを言語モデリングのパフォーマンスに対してプロットしました。BLTモデルはBPEモデルと同等以上のパフォーマンスを示し、この傾向はモデルサイズとフロップが増加するにつれて持続しました。

BLT-1Tデータセット

8BパラメータのBLTモデルは、より大規模な高品質データセットであるBLT-1Tでトレーニングされました。その結果、BLT-Entropyモデルは7つのタスクのうち4つでLlama 3モデルを上回りました。この改善は、動的なパッチングとトークンではなくバイトレベルの情報をモデル化することによる、トレーニング計算のより良い利用によるものです。

パッチのスケーリング

この研究では、パッチがトークンよりもスケーリングしやすいことが強調されています。パッチ長のスケーリングに関する研究では、パッチベースのBLTアーキテクチャがパッチサイズとモデルサイズの両方を増やすことで、より優れたスケーリング傾向を達成できることが示されています。

バイトモデリングによる堅牢性

文字レベルタスク

BLTモデルは、ノイズの多いHellaSwagテストで優れた堅牢性を示し、トークナイザーベースのモデルを平均8パーセントポイント上回っています。さらに、大規模なデータセットでトレーニングされたLlama 3.1モデルをも上回りました。

低リソース言語

BLTは、一般的な言語ペアではLlama 3と同等またはわずかに優れたパフォーマンスを発揮します。しかし、低リソース言語ペアではLlama 3を大幅に上回り、長尾バイトシーケンスへの一般化におけるバイトモデリングの有効性を示しています。

Llama 3からBLTへ

著者らは、BLTモデルが事前トレーニングされたトークナイザーベースのモデルを使用できるワークフローを調査しました。これは、事前トレーニングされたLlama 3.1でBLTのグローバルトークナイザーパラメータを初期化することによって行われました。その結果、Llama 3.1で初期化されたBLTは、同じフロップ数でトレーニングされたLlama 3とベースラインBLTモデルの両方を上回りました。