- Published on
Microsoft пуска мощния модел Phi-4, надминаващ GPT-4o
Въведение в Phi-4
Microsoft Research наскоро пуснаха с отворен код своя най-нов модел с малък брой параметри, Phi-4. Този модел привлече широко внимание с изключителната си производителност. Phi-4 има само 14 милиарда параметри, но представянето му в множество еталонни тестове е впечатляващо, дори надминавайки GPT-4o на OpenAI и други водещи модели с отворен код като Qwen 2.5-14B и Llama-3.3-70B.
Изключителни резултати на Phi-4
В по-конкретни тестове, Phi-4 постигна отличен резултат от 91,8 точки в Американското математическо състезание (AMC), надминавайки много добре известни модели със затворен и отворен код, включително Gemini Pro 1.5 и Claude 3.5 Sonnet. Общата му производителност дори може да се сравни с Llama-3.1, който има 405 милиарда параметри.
Отворен код и търговска употреба
Този ход предизвика силна реакция от общността, след като преди това потребители качиха пиратски версии на теглата на Phi-4 в Hugging Face. Сега Microsoft най-накрая официално пуснаха Phi-4 с отворен код и използваха лиценз MIT, което позволява търговска употреба. Отворен код адрес: phi-4
Hugging Face също поздравиха за пускането на Phi-4 с отворен код, което показва влиянието му.
Ключови предимства на Phi-4: Синтетични данни и фино обучение
Причината, поради която Phi-4 може да постигне такива отлични резултати с толкова малко параметри, е, че висококачествените синтетични данни играят решаваща роля. В сравнение с традиционните данни, извлечени от мрежата, синтетичните данни могат да предоставят по-структурирани и постепенни учебни материали, което помага на модела да научи по-ефективно логиката и процесите на разсъждение на езика.
Структурирано обучение
Синтетичните данни могат да бъдат представени стъпка по стъпка според стъпките за решаване на проблеми, например в отговорите на математически задачи, което помага на модела да разбере по-добре структурата на проблема и идеите за решаване на проблеми.
Съгласуване на контекста
Синтетичните данни могат да бъдат по-добре съгласувани с контекста на разсъждение на модела, по-близо до формата на изхода, който моделът трябва да генерира в действителните приложения, така че моделът да може да се адаптира към нуждите на действителните сценарии на приложение още на етапа на предварителното обучение. Например, пренаписването на фактическа информация от интернет форуми в стил, подобен на взаимодействието на голям модел, прави тази информация по-естествена и разумна в диалозите, генерирани от модела.
Принципи за генериране на синтетични данни на Phi-4
Синтетичните данни на Phi-4 следват следните принципи:
- Разнообразие
- Финност и сложност
- Точност
- Верига на разсъждения
Тези принципи гарантират качеството на синтетичните данни и обхващат повече от 50 различни типа синтетични набори от данни. Microsoft генерираха около 400 милиарда нетеглени токени чрез множество методи като многофазен процес на подкани, планиране на семена, пренаписване и подобрение, и саморевизия.
Органични данни и филтриране
В допълнение към синтетичните данни, Phi-4 също така подложи на строга проверка и филтриране органичните данни, събирайки данни от множество канали, включително онлайн съдържание, лицензирани книги и кодови бази, и извличайки данни за семена с висока образователна стойност и дълбочина на разсъждение чрез двуетапен процес на филтриране. Тези данни за семена осигуряват основа за генериране на синтетични данни и също така се използват директно за предварително обучение, допълнително обогатявайки базата от знания на модела.
Филтриране на данни
По време на процеса на филтриране Microsoft използваха метод за филтриране, базиран на малък класификатор, за да изберат висококачествени документи от мащабни онлайн данни и извършиха специална обработка на многоезични данни, за да гарантират, че моделът може да обработва множество езици, включително немски, испански, френски, португалски, италиански, хинди и японски.
Обучение на Phi-4
Предварителното обучение на Phi-4 използва главно синтетични данни, допълнени от малко количество висококачествени органични данни. Тази стратегия за смесване на данни позволява на модела да абсорбира богато съдържание на знания, като същевременно се учи на способности за разсъждение и решаване на проблеми.
Разширяване на контекста
В междинния етап на обучение Phi-4 разшири дължината на контекста от 4096 на 16384, за да подобри способността на модела да обработва дълъг текст. Това включваше примери с дължина над 8K контекст, филтрирани от висококачествени несинтетични набори от данни, както и новосъздадени синтетични набори от данни, които отговарят на изискванията за 4K последователност.
Пост-тренировъчни етапи
Пост-тренировъчният етап е от решаващо значение за оптимизацията на Phi-4. Microsoft използват техники за контролирано фино настройване (SFT) и директна оптимизация на предпочитанията (DPO).
SFT етап
На етапа SFT предварително обучен модел се фино настройва с около 8 милиарда токена, генерирани от висококачествени данни от различни области, с темп на обучение 10-6 и се добавят многоезични данни от 40 езика, като всички данни са във формат chatml.
DPO технология
Технологията DPO се използва за коригиране на изхода на модела чрез генериране на предпочитани данни, за да го направи по-съвместим с човешките предпочитания. Microsoft също така въведеха технология за търсене на ключови токени (PTS) за генериране на DPO двойки. Тази технология може да идентифицира ключови токени, които имат значително влияние върху правилността на отговорите на модела, и да създаде предпочитани данни за тези токени, като по този начин се подобри производителността на модела при задачи за разсъждение.
Оценка на производителността на Phi-4
За да оценят производителността на Phi-4, Microsoft проведоха тестове на множество еталонни тестове. Phi-4 се представи отлично в академични еталонни тестове, като MMLU, GPQA, MATH, HumanEval и др.
В теста MMLU Phi-4 постигна висок резултат от 84,8. В тестовете GPQA и MATH той дори надмина GPT-4o, демонстрирайки силни способности за разсъждение в задачи, свързани с математически състезания. В сравнение с други модели с подобен и по-голям мащаб, Phi-4 превъзхожда подобни модели с отворен код Qwen-2.5-14B-Instruct в 9 от 12 еталонни теста.