OpenAIモデルパラメータ漏洩：マイクロソフト論文がGPT-4oのサイズを暴露

OpenAIモデルパラメータのリーク：マイクロソフト論文がGPT-4oのサイズを暴露

テクノロジー業界では、大規模言語モデル（LLM）のパラメータサイズは長らく極秘情報とされてきました。しかし、最近、マイクロソフトとワシントン大学の研究チームが共同で発表した医学論文が、OpenAIの複数のモデルのパラメータ情報を誤って公開し、大きな注目を集めています。

パラメータの暴露

この論文で明らかになった重要なパラメータ情報は以下の通りです。

GPT-4: 約1.76兆パラメータ
GPT-4o: 約2000億パラメータ
GPT-4o mini: 約80億パラメータ
o1-preview: 約3000億パラメータ
o1-mini: 約1000億パラメータ
Claude 3.5 Sonnet: 約1750億パラメータ

これらの数値はあくまで研究者による推定値であることに注意が必要です。

GPT-4oシリーズのパラメータに関する議論

特に注目を集めているのは、GPT-4oシリーズのパラメータ数が予想をはるかに下回っている点です。特に、miniバージョンはわずか80億パラメータしかありません。これに対し、一部のインターネットユーザーは、GPT-4o miniが混合エキスパートモデル（MoE）アーキテクチャを採用している可能性を指摘しています。このアーキテクチャでは、実際に活性化されるパラメータは80億ですが、モデル全体のパラメータ数は400億に達する可能性があります。この構造により、小型モデルでもより多くの知識を学習し、同時に高速な動作を維持できると推測されています。

Claude 3.5 Sonnetのパラメータ比較

さらに、Claude 3.5 Sonnetのパラメータ数がGPT-3 davinciと同程度であることが指摘されており、モデルの性能と規模の関係について新たな議論を呼んでいます。

MEDECベンチマーク：医療エラー検出の新たな基準

このパラメータ漏洩のきっかけとなった論文は、実際にはMEDEC1という評価ベンチマークに関するものです。MEDEC1は、大規模言語モデルが医療エラーの検出と修正タスクでどの程度機能するかを評価することを目的としています。このベンチマークは、臨床ノートに含まれるエラーに焦点を当て、診断、管理、治療、薬物療法、病因の5つの側面をカバーしています。

データソースと特徴

MEDECデータセットには、アメリカの3つの病院システムから収集された488件の臨床ノートが含まれており、合計3848件の臨床テキストで構成されています。このデータは、これまでどの大規模言語モデルにも触れられていないため、評価の真正性と信頼性が確保されています。現在、このデータセットは、MEDIQA-CORR共有タスクで17の参加システムのパフォーマンスを評価するために使用されています。

テストと結果

研究チームは、MEDECデータセットを使用して、o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flashなどのさまざまな高度なモデルをテストしました。また、2人の専門医にも同じエラー検出タスクに参加してもらい、人間とAIの比較を行いました。

結果として、大規模言語モデルは医療エラーの検出と修正において優れたパフォーマンスを示したものの、人間の医師と比較するとまだ差があることがわかりました。この結果は、MEDECが非常にチャレンジングな評価基準であることを示しています。

論文の核心：医療分野におけるLLMの応用と課題

論文では、アメリカの医療機関の調査結果として、臨床ノートを読む患者の5人に1人がエラーを発見したと報告しています。これらのエラーのうち、40%は比較的深刻であるとみなされ、最も一般的なのは診断に関連するエラーです。

医学文書におけるLLMの応用とリスク

臨床ノートの生成など、医学文書関連のタスクを大規模言語モデルに任せるケースが増えるにつれて、LLMが出力する情報の正確性と安全性を確保することが不可欠となっています。LLMは、誤った情報や虚偽の内容を出力する「幻覚」を起こす可能性があり、臨床判断に重大な影響を与える可能性があります。

MEDECベンチマークの意義

これらの問題に対処し、医学コンテンツの生成におけるLLMの安全性を確保するために、厳格な検証方法が不可欠です。MEDECベンチマークの導入は、臨床テキスト中の医学エラーを検出および修正するモデルの能力を評価することを目的としています。

MEDECデータセットの構築

MEDECデータセットは、さまざまな医学分野からの3848件の臨床テキストで構成され、8人の医学アノテーターによってラベル付けされました。データセットには、以下の5種類のエラーが含まれています。

診断（Diagnosis）: 提供された診断が不正確。
管理（Management）: 提供された管理に関する次のステップが不正確。
薬物療法（Pharmacotherapy）: 推奨される薬物療法が不正確。
治療（Treatment）: 推奨される治療計画が不正確。
病因（Causal Organism）: 指摘された病原体や病原微生物が不正確。

これらのエラータイプは、医学委員会試験で最も頻繁に見られる問題タイプに基づいています。

データ作成方法

データセットの構築には、以下の2つの方法が採用されました。

方法#1（MS）: MedQAコレクションの医学委員会試験の質問を利用し、医学的な背景を持つアノテーターが、シナリオテキストに誤った回答を挿入しました。
方法#2（UW）: ワシントン大学の3つの病院システムの実際の臨床ノートデータベースを使用し、医学部の学生チームが記録に手動でエラーを導入しました。

どちらの方法も厳格な品質管理プロセスを経ており、データの正確性と信頼性が確保されています。

医療エラーの検出と修正方法

医療エラーの検出と修正タスクにおけるモデルのパフォーマンスを評価するために、研究者たちはこのプロセスを3つのサブタスクに分割しました。

サブタスクA: エラーフラグの予測（0：エラーなし、1：エラーあり）。
サブタスクB: エラーを含む文の抽出。
サブタスクC: エラーを含む文に対する修正内容の生成。

研究チームは、LLMをベースにしたソリューションを構築し、2種類の異なるプロンプトを使用して、必要な出力を生成しました。

実験と結果

言語モデル

研究者たちは、Phi-3-7B、Claude 3.5 Sonnet、Gemini 2.0 Flash、ChatGPT、GPT-4、GPT-4o、o1-mini、o1-previewなど、さまざまな言語モデルに対して実験を行いました。

実験結果の分析

実験結果から、Claude 3.5 Sonnetがエラーフラグの検出とエラー文の検出において優れたパフォーマンスを示したことがわかりました。o1-previewはエラー修正の面で最高のパフォーマンスを示しました。しかし、すべてのモデルにおいて、医療エラーの検出と修正能力は人間の医師に及ばないことが示されました。

また、モデルの精度には問題があり、多くの場合、エラーの存在を過剰に予測している（つまり、「幻覚」を起こしている）ことがわかりました。さらに、分類性能とエラー修正生成性能の間にはランキングのずれが存在しました。

エラータイプ分析

異なるエラータイプの検出と修正に関して、o1-previewはエラーフラグと文検出において高い再現率を示しましたが、医師の方が精度が高い結果となりました。

今後の研究の方向性

研究者たちは、今後の研究の方向性として、プロンプトにさらに多くの例を導入し、最適化することで、医療エラーの検出と修正におけるモデルのパフォーマンスをさらに向上させることを目指すと述べています。