Published on

مایکروسافت مدل قدرتمند Phi-4 را منتشر کرد: عملکردی عالی، فراتر از GPT-4o

نویسندگان
  • avatar
    نام
    Ajax
    Twitter

معرفی مدل زبانی Phi-4

مایکروسافت ریسرچ اخیراً مدل زبانی جدیدی به نام Phi-4 را به صورت متن باز منتشر کرده است. این مدل با عملکرد فوق‌العاده خود توجه بسیاری را به خود جلب کرده است. با وجود اینکه Phi-4 تنها 14 میلیارد پارامتر دارد، در تست‌های مختلف عملکردی چشمگیر از خود نشان داده و حتی از مدل GPT-4o شرکت OpenAI و دیگر مدل‌های متن‌باز برتر مانند Qwen 2.5-14B و Llama-3.3-70B پیشی گرفته است.

عملکرد برجسته در آزمون‌های ریاضی

در آزمون‌های تخصصی‌تر، Phi-4 توانسته است در مسابقه ریاضی AMC آمریکا امتیاز 91.8 را کسب کند. این امتیاز از بسیاری از مدل‌های مشهور متن‌باز و غیر متن‌باز مانند Gemini Pro 1.5 و Claude 3.5 Sonnet بالاتر است. عملکرد کلی این مدل حتی با مدل Llama-3.1 با 405 میلیارد پارامتر قابل مقایسه است.

انتشار رسمی و مجوز تجاری

این اقدام مایکروسافت با استقبال گسترده‌ای از سوی جامعه هوش مصنوعی روبرو شده است. پیش از این، کاربرانی نسخه‌های غیرمجاز وزن‌های Phi-4 را در Hugging Face منتشر کرده بودند. اکنون، مایکروسافت به طور رسمی Phi-4 را با مجوز MIT منتشر کرده است که امکان استفاده تجاری از آن را فراهم می‌سازد. لینک دسترسی به این مدل به صورت زیر است: phi-4 هاب Hugging Face نیز انتشار متن‌باز Phi-4 را تبریک گفته است که نشان دهنده تاثیرگذاری این مدل است.

مزیت‌های کلیدی Phi-4: داده‌های مصنوعی و آموزش دقیق

یکی از دلایل اصلی موفقیت Phi-4 با وجود پارامترهای کم، استفاده از داده‌های مصنوعی با کیفیت بالا است. در مقایسه با داده‌های جمع‌آوری شده از وب، داده‌های مصنوعی ساختارمندتر بوده و به مدل کمک می‌کنند تا منطق و استدلال زبان را به صورت کارآمدتری یاد بگیرد.

  • یادگیری ساختارمند: داده‌های مصنوعی به صورت گام به گام و بر اساس مراحل حل مسئله ارائه می‌شوند. به عنوان مثال، در حل مسائل ریاضی، این نوع داده‌ها به مدل کمک می‌کند تا ساختار مسئله و نحوه حل آن را بهتر درک کند.
  • هم‌ترازی با زمینه: داده‌های مصنوعی بهتر با زمینه استدلال مدل هم‌تراز می‌شوند و به فرمت خروجی مورد نیاز در کاربردهای واقعی نزدیک‌تر هستند. این امر باعث می‌شود مدل در مرحله پیش‌آموزش با نیازهای کاربردی آشنا شود. برای مثال، اطلاعات موجود در فروم‌های اینترنتی به شکلی تغییر داده می‌شود که شبیه به تعامل مدل‌های بزرگ زبانی باشد و در نتیجه، اطلاعات در مکالمات تولید شده توسط مدل طبیعی‌تر و منطقی‌تر به نظر برسند.

اصول تولید داده‌های مصنوعی Phi-4

تولید داده‌های مصنوعی در Phi-4 بر اساس اصول زیر انجام شده است:

  1. تنوع: داده‌ها باید متنوع بوده و شامل انواع مختلفی از اطلاعات باشند.
  2. ظرافت و پیچیدگی: داده‌ها باید ظریف و پیچیده باشند تا مدل بتواند مفاهیم عمیق‌تری را یاد بگیرد.
  3. دقت: داده‌ها باید دقیق و بدون خطا باشند.
  4. زنجیره استدلال: داده‌ها باید شامل زنجیره‌های استدلال باشند تا مدل توانایی استدلال را توسعه دهد.

این اصول تضمین می‌کنند که داده‌های مصنوعی تولید شده از کیفیت بالایی برخوردار باشند و بیش از 50 نوع مجموعه داده مصنوعی مختلف را پوشش دهند. مایکروسافت با استفاده از روش‌های مختلفی مانند فرآیند چند مرحله‌ای، طراحی بذر، بازنویسی و تقویت، و خود بازبینی حدود 400 میلیارد توکن بدون وزن تولید کرده است.

داده‌های ارگانیک و فیلترینگ دقیق

علاوه بر داده‌های مصنوعی، Phi-4 از داده‌های ارگانیک نیز استفاده می‌کند. این داده‌ها از منابع مختلفی مانند محتوای وب، کتاب‌های دارای مجوز و مخازن کد جمع‌آوری شده و طی یک فرآیند فیلترینگ دو مرحله‌ای، داده‌های با ارزش آموزشی و استدلالی بالا استخراج می‌شوند. این داده‌ها به عنوان پایه برای تولید داده‌های مصنوعی عمل می‌کنند و همچنین به طور مستقیم در پیش‌آموزش مورد استفاده قرار می‌گیرند و دانش مدل را غنی‌تر می‌کنند. در فرآیند فیلترینگ، مایکروسافت از روش‌های مبتنی بر دسته‌بندی‌کننده‌های کوچک استفاده کرده است تا اسناد با کیفیت بالا را از داده‌های گسترده وب انتخاب کند. همچنین، برای داده‌های چند زبانه، پردازش ویژه‌ای انجام داده است تا اطمینان حاصل شود که مدل می‌تواند زبان‌های مختلفی از جمله آلمانی، اسپانیایی، فرانسوی، پرتغالی، ایتالیایی، هندی و ژاپنی را پشتیبانی کند.

فرآیند آموزش Phi-4

در مرحله پیش‌آموزش Phi-4، عمدتاً از داده‌های مصنوعی استفاده شده است، و در کنار آن، مقدار کمی داده ارگانیک با کیفیت بالا نیز به کار گرفته شده است. این استراتژی ترکیبی داده‌ها باعث می‌شود که مدل در کنار یادگیری توانایی استدلال و حل مسئله، دانش غنی را نیز جذب کند. در مرحله میانی آموزش، طول زمینه Phi-4 از 4096 به 16384 افزایش یافته است تا توانایی مدل در پردازش متون طولانی‌تر بهبود یابد. این امر شامل انتخاب نمونه‌های با زمینه طولانی‌تر از 8K از مجموعه‌های داده غیر مصنوعی با کیفیت بالا و همچنین ایجاد مجموعه‌های داده مصنوعی جدید با طول 4K است.

بهینه‌سازی پس از آموزش

مرحله پس از آموزش برای بهینه‌سازی Phi-4 بسیار مهم است. در این مرحله، مایکروسافت از تکنیک‌های تنظیم دقیق نظارتی (SFT) و بهینه‌سازی ترجیحی مستقیم (DPO) استفاده کرده است.

  • مرحله SFT: در این مرحله، مدل پیش‌آموزش شده با استفاده از حدود 8 میلیارد توکن تولید شده از داده‌های با کیفیت بالا از حوزه‌های مختلف و با نرخ یادگیری 10-6 تنظیم شده است. همچنین، داده‌های چندزبانه از 40 زبان مختلف به فرمت chatml اضافه شده است.
  • تکنیک DPO: با استفاده از داده‌های ترجیحی، خروجی مدل تنظیم شده است تا با ترجیحات انسانی مطابقت بیشتری داشته باشد. مایکروسافت همچنین از تکنیک جستجوی توکن‌های کلیدی (PTS) برای تولید جفت‌های DPO استفاده کرده است. این تکنیک توکن‌های کلیدی را شناسایی می‌کند که تأثیر زیادی بر صحت پاسخ‌های مدل دارند و سپس بر اساس این توکن‌ها، داده‌های ترجیحی ایجاد می‌شود تا عملکرد مدل در وظایف استدلال بهبود یابد.

ارزیابی عملکرد Phi-4

برای ارزیابی عملکرد Phi-4، مایکروسافت تست‌های مختلفی را در چندین بنچمارک انجام داده است. در بنچمارک‌های آکادمیک مانند MMLU، GPQA، MATH، و HumanEval، Phi-4 عملکرد بسیار خوبی از خود نشان داده است. در آزمون MMLU، Phi-4 امتیاز 84.8 را کسب کرده است. در آزمون‌های GPQA و MATH، حتی از GPT-4o نیز پیشی گرفته و توانایی استدلال قوی خود را در وظایف مرتبط با مسابقات ریاضی نشان داده است. در مقایسه با مدل‌های مشابه و بزرگتر، Phi-4 در 9 مورد از 12 بنچمارک، از مدل متن‌باز Qwen-2.5-14B-Instruct بهتر عمل کرده است.