Published on

نموذج كيمي k1.5 متعدد الوسائط ينافس أداء OpenAI o1

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

نموذج كيمي k1.5: قفزة نوعية في مجال الذكاء الاصطناعي

في عالم الذكاء الاصطناعي، تحقق تقدم كبير مع الكشف عن نموذج كيمي k1.5 متعدد الوسائط من قبل شركة مونشوت إيه آي. لقد أظهر هذا النموذج الرائد مستويات أداء تنافس النسخة الكاملة o1 من OpenAI، وهو إنجاز لم تحققه أي جهة أخرى خارج OpenAI من قبل. يمثل هذا التطور فصلاً جديدًا في السعي لتحقيق قدرات الذكاء الاصطناعي المتقدمة، مما يدل على إمكانات الابتكار المحلي في مواجهة المنافسة العالمية.

يتميز نموذج كيمي k1.5 بقدراته الشاملة في مختلف المجالات، بما في ذلك الرياضيات والبرمجة والاستدلال متعدد الوسائط. إن أداءه في هذه المجالات ليس فقط قابلاً للمقارنة مع النسخة الكاملة o1، بل يتفوق عليها في جوانب معينة. والجدير بالذكر أن متغير kimi-k1.5-short يظهر كنموذج حديث (SOTA) لسلسلة التفكير القصيرة (CoT)، متفوقًا على GPT-4o و Claude 3.5 Sonnet بنسبة مذهلة تبلغ 550٪. يؤكد هذا التقدم الكبير على القدرات الاستثنائية للنموذج وإمكاناته في إعادة تعريف معايير أداء الذكاء الاصطناعي.

الشفافية والتعاون في تطوير الذكاء الاصطناعي

إن إنجاز مونشوت إيه آي ليس مجرد علامة فارقة تقنية، بل هو شهادة على الشفافية والروح التعاونية التي غالبًا ما تفتقر إليها المنافسة في مجال الذكاء الاصطناعي. من خلال نشر تقريرهم الفني، تدعو مونشوت إيه آي مجتمع التكنولوجيا الأوسع إلى التدقيق في عملهم والتعلم منه والمساهمة فيه. تؤكد هذه الخطوة على اعتقادهم بأن الرحلة نحو الذكاء الاصطناعي العام (AGI) هي مسعى جماعي، يتطلب مشاركة مواهب ووجهات نظر متنوعة.

أداء متميز في مختلف الاختبارات

يكشف الاختبار الشامل لنموذج كيمي k1.5 عن مكانته كنموذج حديث (SOTA) في العديد من المجالات الرئيسية. في وضع Long-CoT، يضاهي أداء الإصدار الرسمي o1 من OpenAI في الرياضيات والبرمجة والاستدلال متعدد الوسائط. إن نتائجه في معايير مثل AIME (77.5)، و MATH 500 (96.2)، و Codeforces (النسبة المئوية 94)، و MathVista (74.9) تدل على براعته. يمثل هذا الإنجاز أول حالة تصل فيها شركة خارج OpenAI إلى مستوى أداء o1 الكامل.

علاوة على ذلك، في وضع Short-CoT، أظهر نموذج كيمي k1.5 أداءً عالميًا حديثًا (SOTA)، متجاوزًا بشكل كبير GPT-4o و Claude 3.5 Sonnet. إن نتائجه في AIME (60.8)، و MATH500 (94.6)، و LiveCodeBench (47.3) هي دليل على قدراته الاستثنائية في الاستدلال القصير لسلسلة التفكير. هذه النتائج ليست مجرد أرقام؛ إنها تمثل تحولًا نموذجيًا في قدرات نماذج الذكاء الاصطناعي متعددة الوسائط.

نهج مبتكر في التدريب

لم يكن تطوير نموذج كيمي k1.5 ضربة حظ، بل كان نتيجة لنهج متعمد ومبتكر. أدرك الفريق في مونشوت إيه آي أن مجرد زيادة المعلمات أثناء التدريب المسبق لن يؤدي إلى النتائج المرجوة. لقد تحولوا نحو التدريب اللاحق القائم على التعلم المعزز كمجال رئيسي للتحسين. يسمح هذا النهج للنموذج بتوسيع بيانات التدريب الخاصة به من خلال الاستكشاف القائم على المكافآت، وبالتالي توسيع قدراته الحسابية.

يفصل التقرير الفني استكشاف الفريق لتقنيات التدريب بالتعلم المعزز (RL)، ووصفات البيانات متعددة الوسائط، وتحسين البنية التحتية. إن إطار عمل RL الخاص بهم، على وجه الخصوص، بسيط وفعال، ويتجنب التقنيات الأكثر تعقيدًا مثل البحث في شجرة مونت كارلو ووظائف القيمة. كما قدموا تقنية long2short، التي تستفيد من نماذج Long-CoT لتعزيز أداء نماذج Short-CoT.

عناصر أساسية في إطار التعلم المعزز

هناك عنصران حاسمان يدعمان إطار عمل RL الخاص بالفريق: توسيع السياق الطويل وتحسين السياسة. من خلال توسيع نافذة السياق إلى 128 ألف، لاحظوا تحسنًا مستمرًا في أداء النموذج. كما أنهم يستخدمون التوزيع الجزئي لتحسين كفاءة التدريب، وإعادة استخدام المسارات القديمة لأخذ عينات جديدة.

كما استخلص الفريق صيغة للتعلم المعزز مع Long-CoT، باستخدام متغير من التدرج المرآة عبر الإنترنت لتحسين السياسة القوية.

تقنية long2short

تتضمن تقنية long2short عدة طرق، بما في ذلك دمج النماذج، وأخذ عينات الرفض الأقصر، و DPO، و long2short RL. يجمع دمج النماذج بين نماذج Long-CoT و Short-CoT لتحقيق كفاءة أفضل في الرموز. يختار أخذ عينات الرفض الأقصر أقصر استجابة صحيحة للضبط الدقيق. تستخدم DPO أزواجًا من الاستجابات القصيرة والطويلة لبيانات التدريب. يتضمن Long2short RL مرحلة تدريب منفصلة مع عقوبة طول.

رؤية مستقبلية

بالنظر إلى المستقبل، تلتزم مونشوت إيه آي بتسريع ترقية نماذج التعلم المعزز من سلسلة k الخاصة بها. وتهدف إلى تقديم المزيد من الوسائط، وقدرات أوسع، وقدرات عامة محسنة. تضعهم هذه الرؤية الطموحة كلاعب رئيسي في مشهد الذكاء الاصطناعي العالمي، وعلى استعداد لتحدي هيمنة اللاعبين الراسخين مثل OpenAI.

إن نموذج كيمي k1.5 هو أكثر من مجرد إنجاز تكنولوجي؛ إنه رمز لإمكانات الابتكار المحلي في قطاع الذكاء الاصطناعي. بفضل أدائه الاستثنائي والمشاركة المفتوحة لتفاصيل التدريب الخاصة به، يضع كيمي k1.5 معيارًا جديدًا لتطوير الذكاء الاصطناعي في جميع أنحاء العالم. الترقب لإصداره كبير، ومن المتوقع أن يكون تأثيره عميقًا.