Published on

Moonshot AIのKimi k1.5モデルがOpenAI o1に匹敵する性能を達成

著者
  • avatar
    名前
    Ajax
    Twitter

Moonshot AIによるKimi k1.5モデルの発表

人工知能の分野において、Moonshot AIが発表したKimi k1.5マルチモーダルモデルは、大きな飛躍を遂げました。この画期的なモデルは、OpenAIのフルバージョンo1に匹敵する性能レベルを実証しており、これはこれまでOpenAI以外のどの組織も達成していなかった偉業です。この開発は、高度なAI能力の追求における新たな章を開き、グローバルな競争の中で国内イノベーションの可能性を示しています。

Kimi k1.5モデルの卓越した能力

Kimi k1.5モデルは、数学、コーディング、マルチモーダル推論など、さまざまな分野にわたる包括的な能力で際立っています。これらの分野でのパフォーマンスは、フルo1バージョンに匹敵するだけでなく、特定の側面ではそれを上回っています。特に、kimi-k1.5-shortバリアントは、最先端(SOTA)の短鎖思考(CoT)モデルとして登場し、GPT-4oやClaude 3.5 Sonnetを驚異的な550%も上回っています。この大きな進歩は、モデルの卓越した能力と、AIパフォーマンスのベンチマークを再定義する可能性を強調しています。

透明性と協力的な精神

Moonshot AIの業績は、単なる技術的なマイルストーンではなく、競争の激しいAI業界でしばしば欠けている透明性と協力的な精神の証です。技術レポートを公開することで、Moonshot AIはより広範な技術コミュニティに対し、彼らの仕事を精査し、学び、貢献することを促しています。この動きは、人工汎用知能(AGI)への道のりが、多様な才能と視点の参加を必要とする集団的な取り組みであるという彼らの信念を強調しています。

Kimi k1.5モデルの包括的なテスト結果

Kimi k1.5モデルの包括的なテストでは、いくつかの主要分野でSOTAステータスが明らかになりました。長鎖思考(Long-CoT)モードでは、数学、コーディング、マルチモーダル推論において、OpenAI o1の公式リリースと同等のパフォーマンスを示しています。AIME(77.5)、MATH 500(96.2)、Codeforces(94パーセンタイル)、MathVista(74.9)などのベンチマークでのスコアは、その能力を示しています。この成果は、OpenAI以外の企業がフルo1のパフォーマンスレベルに到達した最初の事例となります。

さらに、短鎖思考(Short-CoT)モードでは、Kimi k1.5モデルはグローバルSOTAパフォーマンスを実証し、GPT-4oやClaude 3.5 Sonnetを大幅に上回っています。AIME(60.8)、MATH500(94.6)、LiveCodeBench(47.3)でのスコアは、短鎖思考推論におけるその卓越した能力の証拠です。これらの結果は単なる数字ではなく、マルチモーダルAIモデルの能力におけるパラダイムシフトを表しています。

革新的な開発アプローチ

Kimi k1.5モデルの開発は、偶然の産物ではなく、意図的かつ革新的なアプローチの結果でした。Moonshot AIのチームは、事前トレーニング中に単にパラメータをスケールアップするだけでは、望ましい結果が得られないことを認識しました。彼らは、改善の重要な領域として、強化学習ベースのポストトレーニングに軸足を移しました。このアプローチにより、モデルは報酬ベースの探索を通じてトレーニングデータを拡張し、計算能力を拡大することができます。

技術レポートでは、強化学習(RL)トレーニング技術、マルチモーダルデータレシピ、インフラストラクチャの最適化に関するチームの調査について詳しく説明しています。彼らのRLフレームワークは、特に、モンテカルロ木探索や価値関数のようなより複雑な技術を避け、シンプルかつ効果的です。また、Long-CoTモデルを活用してShort-CoTモデルのパフォーマンスを向上させるlong2short技術も導入しました。

強化学習フレームワークの重要な要素

チームのRLフレームワークを支える2つの重要な要素は、長文脈スケーリングと改善されたポリシー最適化です。コンテキストウィンドウを128kにスケーリングすることで、モデルのパフォーマンスが継続的に向上することが観察されました。また、トレーニング効率を向上させるために部分的なロールアウトを使用し、古い軌跡を再利用して新しい軌跡をサンプリングしています。チームはまた、ロバストなポリシー最適化のために、オンラインミラー降下のバリアントを採用し、Long-CoTを使用した強化学習式を導き出しました。

long2short技術の詳細

long2short技術には、モデルマージ、最短拒否サンプリング、DPO、long2short RLなど、いくつかの方法が含まれています。モデルマージは、トークン効率を向上させるためにLong-CoTモデルとShort-CoTモデルを組み合わせます。最短拒否サンプリングは、ファインチューニングのために最短の正しい応答を選択します。DPOは、トレーニングデータに短い応答と長い応答のペアを使用します。Long2short RLには、長さペナルティを伴う別のトレーニングフェーズが含まれます。

今後の展望

Moonshot AIは、kシリーズ強化学習モデルのアップグレードを加速することに尽力しています。より多くのモダリティ、より幅広い機能、および強化された一般的な機能の導入を目指しています。この野心的なビジョンは、彼らをグローバルなAI業界における主要なプレーヤーとして位置づけ、OpenAIのような確立されたプレーヤーの優位性に挑戦する態勢を整えています。

国内イノベーションの象徴

Kimi k1.5モデルは、単なる技術的な成果以上のものです。AI分野における国内イノベーションの可能性の象徴です。その卓越したパフォーマンスとトレーニングの詳細のオープンな共有により、Kimi k1.5は世界中のAI開発の新しい基準を設定します。そのリリースへの期待は高く、その影響は深刻であると予想されます。