大規模モデルの密度法則スケーリング則を超える新たな視点

大規模モデルの密度法則：スケーリング則を超える新たな視点

はじめに

清華大学の劉知遠教授率いる研究チームは、大規模モデルに関する新たな法則「密度法則」を提唱しました。この法則は、モデルの能力密度が約100日ごとに倍増するという驚くべき事実を示唆しています。従来のモデルのスケーリング則とは異なる視点から、パラメータの効率に着目したこの法則は、AIの進化における重要な転換点となる可能性があります。

研究の背景と動機

従来のモデルのスケーリング則は、モデルのサイズ（パラメータ数）と学習データの増加に伴い、モデルの性能が向上すると説明していました。しかし、この新たな「密度法則」は、パラメータの有効活用と、時間経過に伴うモデル効率の急速な向上に焦点を当てています。研究チームは、「能力密度」という概念を導入し、実際のパラメータ数に対する有効パラメータ数の比率を測定しています。

主要な概念

能力密度: モデルの「有効パラメータ数」を実際のパラメータ数で割った比率として定義されます。
有効パラメータ数: 対象モデルと同じ性能を達成するために、参照モデルが必要とする最小限のパラメータ数です。
参照モデル: 他のモデルの有効パラメータ数を決定するための基準として使用されるモデルです。
損失推定: 一連の参照モデルを使用して、モデルパラメータと損失の関係を適合させるプロセスです。
性能推定: モデルにおける新たな能力の出現を考慮して、損失と性能の間の完全なマッピングを確立するプロセスです。

密度法則

大規模言語モデル（LLM）の最大能力密度は、時間とともに指数関数的に増加します。この成長の公式は、ln(ρmax) = At + B と表されます。ここで、ρmax は時間 t における最大能力密度です。この法則は、最先端モデルの性能が、約3.3ヶ月（約100日）ごとに半分のパラメータで達成できることを示唆しています。

密度法則の含意

推論コストの削減: モデルの推論コストは、時間とともに指数関数的に減少しています。例えば、100万トークンあたりのコストは、GPT-3.5からGemini-1.5-Flashへと大幅に減少しました。
能力密度成長の加速: ChatGPTのリリース以降、能力密度の増加率は加速しています。
ムーアの法則と密度法則の収束: チップ密度（ムーアの法則）の増加とモデル能力密度（密度法則）の収束は、強力なオンデバイスAIの可能性を示唆しています。
モデル圧縮の限界: モデル圧縮技術だけでは、能力密度を向上させることはできません。実際、ほとんどの圧縮モデルは、元のモデルよりも密度が低くなっています。
モデルライフサイクルの短縮: 能力密度の急速な増加は、高性能モデルの有効寿命が短くなり、収益性が得られる期間が短くなることを意味します。

より広い背景

密度法則は、AI時代の主要なエンジンである電力、計算能力、知能がすべて急速な密度成長を経験しているという、より大きなトレンドの一部です。

バッテリーのエネルギー密度は、過去20年間で4倍になりました。
チップのトランジスタ密度は、18ヶ月ごとに倍増しています（ムーアの法則）。
AIモデルの能力密度は、100日ごとに倍増しています。

このトレンドは、エネルギーと計算リソースの需要を減らし、より効率的なAIへの移行を示唆しています。エッジコンピューティングとローカルAIモデルの台頭が期待され、AIがユビキタスとなる未来につながると考えられます。

その他のポイント

研究チームは、29個の広く使用されているオープンソースの大規模モデルを使用して、能力密度の傾向を分析しました。
この研究は、モデル圧縮アルゴリズムだけに頼るだけでは、モデルの能力密度を向上させるには不十分であることを強調しています。
研究論文は、Densing Law of LLMs で入手できます。