Published on

مايكروسوفت تطلق نموذج Phi-4 القوي: أداء يتفوق على GPT-4o وقابل للاستخدام التجاري

المؤلفون
  • avatar
    الاسم
    Ajax
    Twitter

مقدمة

أطلقت مايكروسوفت للأبحاث مؤخرًا نموذجها الجديد ذو المعلمات الصغيرة Phi-4، والذي أثار اهتمامًا واسعًا بفضل أدائه المتميز. على الرغم من أن حجم معلمات Phi-4 يبلغ 14 مليار فقط، إلا أن أدائه في العديد من الاختبارات المعيارية كان مذهلاً، حتى أنه تجاوز أداء GPT-4o من OpenAI ونماذج مفتوحة المصدر أخرى من الدرجة الأولى مثل Qwen 2.5-14B و Llama-3.3-70B.

أداء Phi-4 المذهل

في اختبارات أكثر تحديدًا، حقق Phi-4 نتيجة ممتازة بلغت 91.8 في مسابقة الرياضيات الأمريكية AMC، متفوقًا على العديد من النماذج المعروفة المفتوحة والمغلقة المصدر، بما في ذلك Gemini Pro 1.5 و Claude 3.5 Sonnet. يمكن مقارنة أدائه العام حتى مع أداء Llama-3.1 الذي يمتلك 405 مليار معلمة. أثار هذا الإطلاق ردود فعل قوية في المجتمع، خاصة بعد أن قام بعض المستخدمين بتحميل أوزان Phi-4 المقرصنة على Hugging Face. الآن، أطلقت مايكروسوفت رسميًا Phi-4 بموجب ترخيص MIT، مما يسمح باستخدامه تجاريًا.

  • رابط المصدر: phi-4
  • أعربت Hugging Face رسميًا عن تهنئتها بإطلاق Phi-4، مما يدل على تأثيره الكبير.

الميزة الرئيسية لـ Phi-4: البيانات الاصطناعية والتدريب الدقيق

يعود السبب في تحقيق Phi-4 لهذا الأداء المتميز بمعلمات صغيرة إلى جودة البيانات الاصطناعية العالية التي تم استخدامها في تدريبه. بالمقارنة مع البيانات التقليدية التي يتم جمعها من الويب، توفر البيانات الاصطناعية مواد تعليمية أكثر هيكلية وتدريجية، مما يساعد النموذج على تعلم منطق اللغة وعمليات الاستدلال بكفاءة أكبر.

التعلم المهيكل: يمكن عرض البيانات الاصطناعية خطوة بخطوة وفقًا لخطوات حل المشكلة، على سبيل المثال، في حل مسائل الرياضيات، مما يساعد النموذج على فهم بنية المشكلة وطرق حلها بشكل أفضل.

محاذاة السياق: يمكن للبيانات الاصطناعية أن تتوافق بشكل أفضل مع سياق استدلال النموذج، وأن تكون أقرب إلى تنسيق الإخراج الذي يحتاجه النموذج في التطبيقات الفعلية، مما يجعل النموذج يتكيف مع احتياجات سيناريوهات التطبيق الفعلية في مرحلة التدريب المسبق. على سبيل المثال، يمكن إعادة كتابة المعلومات الواقعية من المنتديات عبر الإنترنت بأسلوب مشابه للتفاعل مع نماذج اللغة الكبيرة، مما يجعل هذه المعلومات أكثر طبيعية ومنطقية في الحوارات التي ينشئها النموذج.

مبادئ توليد البيانات الاصطناعية لـ Phi-4:

  1. التنوع: ضمان تغطية واسعة من المواضيع والأنماط.
  2. الدقة والتعقيد: الحفاظ على جودة البيانات وتعقيدها.
  3. الدقة: التأكد من صحة المعلومات المقدمة.
  4. سلسلة الاستدلال: تضمين خطوات منطقية في البيانات.

تضمن هذه المبادئ جودة البيانات الاصطناعية، التي تغطي أكثر من 50 نوعًا مختلفًا من مجموعات البيانات الاصطناعية. قامت مايكروسوفت بإنشاء حوالي 400 مليار رمز غير مرجح من خلال عمليات متعددة المراحل مثل التوجيه، وتخطيط البذور، وإعادة الكتابة والتحسين، والمراجعة الذاتية.

البيانات العضوية:

بالإضافة إلى البيانات الاصطناعية، قام Phi-4 أيضًا بفحص وتصفية البيانات العضوية بشكل صارم. تم جمع البيانات من مصادر متعددة مثل محتوى الويب والكتب المرخصة ومستودعات الأكواد، وتم استخراج البيانات ذات القيمة التعليمية العالية وعمق الاستدلال من خلال عملية تصفية من مرحلتين. توفر هذه البيانات الأساس لتوليد البيانات الاصطناعية وتستخدم أيضًا بشكل مباشر في التدريب المسبق، مما يزيد من ثراء قاعدة المعرفة للنموذج.

أثناء عملية التصفية، استخدمت مايكروسوفت طريقة تصفية تعتمد على المصنفات الصغيرة لاختيار مستندات عالية الجودة من بيانات الويب واسعة النطاق، وقامت بمعالجة خاصة للبيانات متعددة اللغات لضمان قدرة النموذج على التعامل مع لغات متعددة، بما في ذلك الألمانية والإسبانية والفرنسية والبرتغالية والإيطالية والهندية واليابانية.

عملية تدريب Phi-4:

تستخدم عملية التدريب المسبق لـ Phi-4 بشكل أساسي البيانات الاصطناعية، بالإضافة إلى كمية صغيرة من البيانات العضوية عالية الجودة. يتيح هذا المزيج من البيانات للنموذج تعلم قدرات الاستدلال وحل المشكلات، بالإضافة إلى استيعاب محتوى معرفي غني.

في مرحلة التدريب المتوسطة، قامت Phi-4 بتوسيع طول السياق من 4096 إلى 16384، وذلك لتحسين قدرة النموذج على معالجة النصوص الطويلة. وشمل ذلك عينات أطول من 8K سياق تم اختيارها من مجموعات بيانات غير اصطناعية عالية الجودة، بالإضافة إلى مجموعات بيانات اصطناعية جديدة تلبي متطلبات تسلسل 4K.

تعتبر مرحلة التدريب اللاحقة حاسمة لتحسين Phi-4. استخدمت مايكروسوفت تقنيات الضبط الدقيق الخاضع للإشراف (SFT) والتحسين المباشر للتفضيلات (DPO).

  • مرحلة SFT: تم ضبط النموذج المدرب مسبقًا باستخدام حوالي 8 مليارات رمز تم إنشاؤها من بيانات عالية الجودة من مجالات مختلفة، بمعدل تعلم قدره 10-6، وإضافة بيانات متعددة اللغات من 40 لغة، وجميع البيانات بتنسيق chatml.
  • تقنية DPO: تم استخدامها لضبط مخرجات النموذج من خلال توليد بيانات تفضيلية لجعلها أكثر توافقًا مع تفضيلات الإنسان. قدمت مايكروسوفت أيضًا تقنية البحث عن الرموز الرئيسية (PTS) لإنشاء أزواج DPO. يمكن لهذه التقنية تحديد الرموز الرئيسية التي لها تأثير كبير على صحة إجابات النموذج، وإنشاء بيانات تفضيلية لهذه الرموز، وبالتالي تحسين أداء النموذج في مهام الاستدلال.

تقييم أداء Phi-4:

لتقييم أداء Phi-4، أجرت مايكروسوفت اختبارات على العديد من المعايير. في المعايير الأكاديمية مثل MMLU و GPQA و MATH و HumanEval، أظهر Phi-4 أداءً متميزًا.

في اختبار MMLU، حقق Phi-4 درجة عالية بلغت 84.8. في اختبارات GPQA و MATH، تجاوز أداء Phi-4 حتى GPT-4o، مما يدل على قدرة استدلال قوية في المهام المتعلقة بمسابقات الرياضيات. في المقارنات مع النماذج الأخرى ذات الأحجام المماثلة والأكبر، تفوق Phi-4 على النموذج مفتوح المصدر Qwen-2.5-14B-Instruct في 9 من أصل 12 اختبارًا معياريًا.