- Published on
مایکروسافت مدل قدرتمند Phi-4 را منتشر کرد: عملکردی عالی، فراتر از GPT-4o
معرفی مدل زبانی Phi-4
مایکروسافت ریسرچ اخیراً مدل زبانی جدیدی به نام Phi-4 را به صورت متن باز منتشر کرده است. این مدل با عملکرد فوقالعاده خود توجه بسیاری را به خود جلب کرده است. با وجود اینکه Phi-4 تنها 14 میلیارد پارامتر دارد، در تستهای مختلف عملکردی چشمگیر از خود نشان داده و حتی از مدل GPT-4o شرکت OpenAI و دیگر مدلهای متنباز برتر مانند Qwen 2.5-14B و Llama-3.3-70B پیشی گرفته است.
عملکرد برجسته در آزمونهای ریاضی
در آزمونهای تخصصیتر، Phi-4 توانسته است در مسابقه ریاضی AMC آمریکا امتیاز 91.8 را کسب کند. این امتیاز از بسیاری از مدلهای مشهور متنباز و غیر متنباز مانند Gemini Pro 1.5 و Claude 3.5 Sonnet بالاتر است. عملکرد کلی این مدل حتی با مدل Llama-3.1 با 405 میلیارد پارامتر قابل مقایسه است.
انتشار رسمی و مجوز تجاری
این اقدام مایکروسافت با استقبال گستردهای از سوی جامعه هوش مصنوعی روبرو شده است. پیش از این، کاربرانی نسخههای غیرمجاز وزنهای Phi-4 را در Hugging Face منتشر کرده بودند. اکنون، مایکروسافت به طور رسمی Phi-4 را با مجوز MIT منتشر کرده است که امکان استفاده تجاری از آن را فراهم میسازد. لینک دسترسی به این مدل به صورت زیر است: phi-4 هاب Hugging Face نیز انتشار متنباز Phi-4 را تبریک گفته است که نشان دهنده تاثیرگذاری این مدل است.
مزیتهای کلیدی Phi-4: دادههای مصنوعی و آموزش دقیق
یکی از دلایل اصلی موفقیت Phi-4 با وجود پارامترهای کم، استفاده از دادههای مصنوعی با کیفیت بالا است. در مقایسه با دادههای جمعآوری شده از وب، دادههای مصنوعی ساختارمندتر بوده و به مدل کمک میکنند تا منطق و استدلال زبان را به صورت کارآمدتری یاد بگیرد.
- یادگیری ساختارمند: دادههای مصنوعی به صورت گام به گام و بر اساس مراحل حل مسئله ارائه میشوند. به عنوان مثال، در حل مسائل ریاضی، این نوع دادهها به مدل کمک میکند تا ساختار مسئله و نحوه حل آن را بهتر درک کند.
- همترازی با زمینه: دادههای مصنوعی بهتر با زمینه استدلال مدل همتراز میشوند و به فرمت خروجی مورد نیاز در کاربردهای واقعی نزدیکتر هستند. این امر باعث میشود مدل در مرحله پیشآموزش با نیازهای کاربردی آشنا شود. برای مثال، اطلاعات موجود در فرومهای اینترنتی به شکلی تغییر داده میشود که شبیه به تعامل مدلهای بزرگ زبانی باشد و در نتیجه، اطلاعات در مکالمات تولید شده توسط مدل طبیعیتر و منطقیتر به نظر برسند.
اصول تولید دادههای مصنوعی Phi-4
تولید دادههای مصنوعی در Phi-4 بر اساس اصول زیر انجام شده است:
- تنوع: دادهها باید متنوع بوده و شامل انواع مختلفی از اطلاعات باشند.
- ظرافت و پیچیدگی: دادهها باید ظریف و پیچیده باشند تا مدل بتواند مفاهیم عمیقتری را یاد بگیرد.
- دقت: دادهها باید دقیق و بدون خطا باشند.
- زنجیره استدلال: دادهها باید شامل زنجیرههای استدلال باشند تا مدل توانایی استدلال را توسعه دهد.
این اصول تضمین میکنند که دادههای مصنوعی تولید شده از کیفیت بالایی برخوردار باشند و بیش از 50 نوع مجموعه داده مصنوعی مختلف را پوشش دهند. مایکروسافت با استفاده از روشهای مختلفی مانند فرآیند چند مرحلهای، طراحی بذر، بازنویسی و تقویت، و خود بازبینی حدود 400 میلیارد توکن بدون وزن تولید کرده است.
دادههای ارگانیک و فیلترینگ دقیق
علاوه بر دادههای مصنوعی، Phi-4 از دادههای ارگانیک نیز استفاده میکند. این دادهها از منابع مختلفی مانند محتوای وب، کتابهای دارای مجوز و مخازن کد جمعآوری شده و طی یک فرآیند فیلترینگ دو مرحلهای، دادههای با ارزش آموزشی و استدلالی بالا استخراج میشوند. این دادهها به عنوان پایه برای تولید دادههای مصنوعی عمل میکنند و همچنین به طور مستقیم در پیشآموزش مورد استفاده قرار میگیرند و دانش مدل را غنیتر میکنند. در فرآیند فیلترینگ، مایکروسافت از روشهای مبتنی بر دستهبندیکنندههای کوچک استفاده کرده است تا اسناد با کیفیت بالا را از دادههای گسترده وب انتخاب کند. همچنین، برای دادههای چند زبانه، پردازش ویژهای انجام داده است تا اطمینان حاصل شود که مدل میتواند زبانهای مختلفی از جمله آلمانی، اسپانیایی، فرانسوی، پرتغالی، ایتالیایی، هندی و ژاپنی را پشتیبانی کند.
فرآیند آموزش Phi-4
در مرحله پیشآموزش Phi-4، عمدتاً از دادههای مصنوعی استفاده شده است، و در کنار آن، مقدار کمی داده ارگانیک با کیفیت بالا نیز به کار گرفته شده است. این استراتژی ترکیبی دادهها باعث میشود که مدل در کنار یادگیری توانایی استدلال و حل مسئله، دانش غنی را نیز جذب کند. در مرحله میانی آموزش، طول زمینه Phi-4 از 4096 به 16384 افزایش یافته است تا توانایی مدل در پردازش متون طولانیتر بهبود یابد. این امر شامل انتخاب نمونههای با زمینه طولانیتر از 8K از مجموعههای داده غیر مصنوعی با کیفیت بالا و همچنین ایجاد مجموعههای داده مصنوعی جدید با طول 4K است.
بهینهسازی پس از آموزش
مرحله پس از آموزش برای بهینهسازی Phi-4 بسیار مهم است. در این مرحله، مایکروسافت از تکنیکهای تنظیم دقیق نظارتی (SFT) و بهینهسازی ترجیحی مستقیم (DPO) استفاده کرده است.
- مرحله SFT: در این مرحله، مدل پیشآموزش شده با استفاده از حدود 8 میلیارد توکن تولید شده از دادههای با کیفیت بالا از حوزههای مختلف و با نرخ یادگیری 10-6 تنظیم شده است. همچنین، دادههای چندزبانه از 40 زبان مختلف به فرمت chatml اضافه شده است.
- تکنیک DPO: با استفاده از دادههای ترجیحی، خروجی مدل تنظیم شده است تا با ترجیحات انسانی مطابقت بیشتری داشته باشد. مایکروسافت همچنین از تکنیک جستجوی توکنهای کلیدی (PTS) برای تولید جفتهای DPO استفاده کرده است. این تکنیک توکنهای کلیدی را شناسایی میکند که تأثیر زیادی بر صحت پاسخهای مدل دارند و سپس بر اساس این توکنها، دادههای ترجیحی ایجاد میشود تا عملکرد مدل در وظایف استدلال بهبود یابد.
ارزیابی عملکرد Phi-4
برای ارزیابی عملکرد Phi-4، مایکروسافت تستهای مختلفی را در چندین بنچمارک انجام داده است. در بنچمارکهای آکادمیک مانند MMLU، GPQA، MATH، و HumanEval، Phi-4 عملکرد بسیار خوبی از خود نشان داده است. در آزمون MMLU، Phi-4 امتیاز 84.8 را کسب کرده است. در آزمونهای GPQA و MATH، حتی از GPT-4o نیز پیشی گرفته و توانایی استدلال قوی خود را در وظایف مرتبط با مسابقات ریاضی نشان داده است. در مقایسه با مدلهای مشابه و بزرگتر، Phi-4 در 9 مورد از 12 بنچمارک، از مدل متنباز Qwen-2.5-14B-Instruct بهتر عمل کرده است.