Published on

スタンフォード大学とUCバークレーの研究 ChatGPTの性能低下

著者
  • avatar
    名前
    Ajax
    Twitter

ChatGPTの性能変動に関するスタンフォード大学とUCバークレーの研究

スタンフォード大学とカリフォルニア大学バークレー校の研究者たちが発表したハーバードデータサイエンスレビュー掲載の論文「ChatGPT Behavior Over Time」は、GPT-3.5とGPT-4の性能と挙動が3ヶ月間にわたり著しく変動したことを明らかにしました。この研究では、数学問題解決、コード生成、多段階知識集約型質問応答、米国医師免許試験など、7つのタスクにわたってこれらのモデルが検証されました。

性能変動の詳細

研究によれば、GPT-3.5とGPT-4の両方で、3ヶ月以内に性能に顕著な変動が見られました。特に、GPT-4の素数と合成数の識別精度は、3月の84%から6月には51%へと劇的に低下しました。この低下は、'chain of thought'プロンプトに従う能力の低下に部分的に起因するとされています。興味深いことに、GPT-3.5はこの特定のタスクにおいて、同時期に改善を示しました。

その他の注目すべき変化には以下が含まれます。

  • 6月には、GPT-4がデリケートな質問や意見調査に答える意欲が低下。
  • GPT-4が多段階推論問題を解決する能力が向上した一方、GPT-3.5はそのようなタスクで低下を示しました。
  • 両モデルのコード生成におけるフォーマットエラーが増加。
  • GPT-4がユーザーの指示に従う能力が低下。

評価方法

研究者たちは、多様性と表現の原則に基づいてGPT-3.5とGPT-4を評価しました。テストは、以下の7つの主要な領域にわたって実施されました。

  • 数学問題
  • デリケートな問題/危険な問題
  • 意見調査
  • 多段階知識集約型質問
  • コード生成
  • 米国医師免許試験
  • 視覚的推論

行動の変化をより深く理解するために、研究チームはタスクに依存しない指示追従に焦点を当てた新しいベンチマークを開発しました。このベンチマークには、回答抽出、謝罪の停止、特定の単語の回避、コンテンツフィルタリングという4つの一般的な指示が含まれていました。

指示追従能力

この一連のテストは、特定のスキルや知識とは独立して、モデルが指示に従う能力を評価するために設計されました。3月には、GPT-4はほとんどの個別の指示によく従うことができましたが、6月にはそれらを無視し始めました。例えば、回答抽出指示の遵守率は99.5%からほぼゼロに低下しました。コンテンツフィルタリング指示の忠実度も74.0%から19.0%に低下しました。

性能指標

モデルの性能を正確に捉えるために、チームは各タスクに対して主要および補助的な性能指標を確立しました。例えば、

  • 数学問題とUSMLEでは、精度が主要な指標として使用されました。
  • コード生成では、実行可能な出力コードの割合が主要な指標でした。

ChatGPTの4つの指示タイプにおける性能

回答抽出

この指示は、モデルが与えられたテキストまたは質問内で回答を正確に特定し、明示的に識別することを要求します。GPT-4は3月にはこのタイプの指示に高い遵守率を示し、クエリのほぼ99.5%が正しくフォーマットされた回答を受け取りました。しかし、6月までにこの率は急落し、モデルが明確な指示形式を処理する能力が低下したことを示しています。

謝罪の停止

この指示は、モデルが明示的にそうしないように求められた場合に、謝罪を使用したり、自身をAIとして識別したりすることを避ける能力をテストします。3月には、GPT-4は一般的にこの指示に従いましたが、6月には、具体的に指示された場合でも頻繁に違反しました。

特定の単語の回避

この指示は、モデルの柔軟性と細部への注意、特に特定の制約を遵守する能力をチェックします。3月から6月にかけての低下は、GPT-4が複雑な指示を処理する能力が低下したことを示しています。

コンテンツフィルタリング

この指示は、モデルが特定のトピックや機密情報を除外することを要求します。3月には、GPT-4はこれらのフィルタリング要件にほぼ従いましたが、6月までにそのフィルタリング能力は大幅に低下し、機密性の高い問題を正しく処理したのは約19%に過ぎませんでした。

研究の含意

研究者たちは、GPT-3.5とGPT-4がクローズドソースモデルであるため、OpenAIがトレーニングデータとプロセスを開示していないと指摘しました。この透明性の欠如は、ユーザーが主要な更新ごとに発生する変更に気づかないことが多いことを意味します。この研究は、開発者とユーザーがChatGPTのパフォーマンスと行動のダイナミクスを理解するのに役立ち、モデルの安全性とコンテンツの信頼性を確保するために重要です。この研究は、特に急速に進化する環境において、これらのモデルの一貫性と信頼性を維持することの難しさを浮き彫りにしています。