マイクロソフトがGPT-4oを超える強力な小モデルPhi-4をオープンソースで公開、商用利用も可能に

マイクロソフトがオープンソースで公開したPhi-4の概要

マイクロソフトリサーチは、最新の小パラメータモデルであるPhi-4をオープンソースとして公開しました。このモデルは、その卓越した性能から大きな注目を集めています。Phi-4はわずか140億のパラメータしか持たないにもかかわらず、複数のベンチマークテストで目覚ましい結果を出し、OpenAIのGPT-4oや、Qwen 2.5-14B、Llama-3.3-70Bといった他のトップレベルのオープンソースモデルを凌駕するほどの性能を示しました。

特に具体的なテストでは、Phi-4はアメリカ数学コンテスト（AMC）で91.8点という優れた成績を収め、Gemini Pro 1.5やClaude 3.5 Sonnetなどの著名なオープンソースおよびクローズドソースモデルを上回りました。その全体的なパフォーマンスは、4050億のパラメータを持つLlama-3.1に匹敵するとも言われています。

この発表はコミュニティで大きな反響を呼びました。以前には、Hugging FaceにPhi-4の不正なウェイトがアップロードされたこともありました。しかし今回、マイクロソフトはPhi-4を正式にオープンソース化し、商用利用が可能なMITライセンスを採用しました。

オープンソースのアドレスは以下の通りです：phi-4

Hugging Faceの公式もPhi-4のオープンソース化を祝っており、その影響力の大きさが伺えます。

Phi-4の鍵となる強み：合成データと精緻なトレーニング

Phi-4がこれほど少ないパラメータで優れた性能を発揮できる理由は、高品質な合成データが重要な役割を果たしているからです。従来のウェブスクレイピングデータと比較して、合成データはより構造化され、段階的な学習教材を提供し、モデルが言語の論理と推論プロセスをより効率的に学習するのに役立ちます。

構造化学習: 合成データは、数学の問題解決のように、段階的な手順で提示できます。これにより、モデルは問題の構造と解決策をより深く理解できます。
コンテキストアライメント: 合成データは、モデルの推論コンテキストとよりよく一致し、実際のアプリケーションでモデルが必要とする出力形式に近いものです。これにより、モデルは事前トレーニング段階で実際のアプリケーションシナリオのニーズに適応できます。例えば、オンラインフォーラムの事実情報を大規模モデルのインタラクションのようなスタイルに書き換えることで、これらの情報がモデル生成された対話でより自然かつ合理的に表示されるようになります。

Phi-4の合成データ生成は、以下の原則に従っています。

多様性
繊細さと複雑さ
正確性
推論チェーン

これらの原則により、合成データの品質が確保され、50種類以上の異なる合成データセットがカバーされています。マイクロソフトは、多段階プロンプトプロセス、シードキュレーション、書き換えと拡張、自己修正などのさまざまな方法を通じて、約4000億の重み付けされていないトークンを生成しました。

合成データに加えて、Phi-4は有機データも厳密に選別およびフィルタリングしました。ウェブコンテンツ、ライセンス書籍、コードリポジトリなど、複数のチャネルからデータを収集し、2段階のフィルタリングプロセスを通じて、教育的価値と推論の深さが高いシードデータを取り出しました。これらのシードデータは、合成データの生成の基盤を提供し、同時に事前トレーニングに直接使用され、モデルの知識ベースをさらに豊かにしています。

選別プロセスでは、マイクロソフトは、大規模なWebデータから高品質のドキュメントを選択するために、小さな分類器に基づくフィルタリング方法を使用しました。また、多言語データに対して特別な処理を行い、ドイツ語、スペイン語、フランス語、ポルトガル語、イタリア語、ヒンディー語、日本語を含む複数の言語をモデルが処理できるようにしました。

Phi-4のトレーニングプロセス

Phi-4の事前トレーニングでは、主に合成データを使用し、さらに少量の高品質な有機データを使用します。このデータ混合戦略により、モデルは推論と問題解決能力を学習すると同時に、豊富な知識コンテンツを吸収することができます。

中期トレーニング段階では、Phi-4はコンテキスト長を4096から16384に拡張し、長文テキストの処理能力を向上させました。これには、高品質の非合成データセットからフィルタリングされた8Kを超えるコンテキストのサンプルと、4Kシーケンス要件を満たすように新しく作成された合成データセットが含まれています。

ポストトレーニング段階は、Phi-4の最適化の鍵であり、マイクロソフトは教師ありファインチューニング（SFT）と直接優先度最適化（DPO）技術を採用しました。

SFT段階: さまざまな分野からの高品質データから生成された約80億トークンを使用して、事前トレーニングされたモデルをファインチューニングしました。学習率は10-6で、40の言語の多言語データが追加されました。すべてのデータはchatml形式を使用しました。
DPO技術: 優先データを作成してモデルの出力を調整し、人間の好みに合うようにしました。マイクロソフトは、モデルの回答の正確さに大きな影響を与える重要なトークンを特定し、これらのトークンに対して優先データを作成するキーポイントトークン検索（PTS）技術も導入しました。これにより、推論タスクでのモデルのパフォーマンスが向上しました。

Phi-4の性能評価

Phi-4の性能を評価するために、マイクロソフトは複数のベンチマークテストを実施しました。MMLU、GPQA、MATH、HumanEvalなどの学術ベンチマークテストでは、Phi-4は優れた結果を示しました。

MMLUテストでは、Phi-4は84.8という高いスコアを獲得し、GPQAおよびMATHテストでは、GPT-4oを上回る結果を出しました。特に数学コンテスト関連のタスクでは、強力な推論能力を発揮しました。同規模またはより大規模な他のモデルとの比較では、Phi-4は12のベンチマークテストのうち9つで、同等のオープンソースモデルであるQwen-2.5-14B-Instructを上回りました。