Microsoft выпустила мощную модель Phi-4, превосходящую GPT-4o

Введение

Недавно исследовательское подразделение Microsoft Research представило свою новую модель с малым количеством параметров, Phi-4. Эта модель вызвала большой интерес благодаря своей высокой производительности. Phi-4 имеет всего 14 миллиардов параметров, но ее результаты в различных тестах впечатляют, превосходя даже OpenAI GPT-4o и другие ведущие открытые модели, такие как Qwen 2.5-14B и Llama-3.3-70B.

Превосходство в тестах

В частности, Phi-4 показала отличный результат в 91,8 балла на американском математическом конкурсе AMC, превзойдя многие известные открытые и закрытые модели, включая Gemini Pro 1.5 и Claude 3.5 Sonnet. Ее общая производительность сравнима с Llama-3.1, которая имеет 405 миллиардов параметров.

Открытый исходный код и коммерческое использование

Этот шаг вызвал большой резонанс в сообществе, поскольку ранее пользователи загружали пиратские версии весов Phi-4 на Hugging Face. Теперь Microsoft официально открыла исходный код Phi-4 под лицензией MIT, разрешающей коммерческое использование.

Ссылка на открытый исходный код: phi-4

Hugging Face также поздравила с открытием Phi-4, что подчеркивает ее значимость.

Ключевые преимущества Phi-4: Синтетические данные и точная настройка

Успех Phi-4 с таким небольшим количеством параметров обусловлен использованием высококачественных синтетических данных. В отличие от традиционных данных, полученных путем веб-сканирования, синтетические данные обеспечивают более структурированный и последовательный материал для обучения, помогая модели более эффективно изучать логику языка и процессы рассуждения.

Структурированное обучение

Синтетические данные могут быть представлены поэтапно, например, в решении математических задач, что помогает модели лучше понимать структуру задач и подходы к их решению.

Согласование с контекстом

Синтетические данные лучше согласованы с контекстом рассуждений модели, что больше соответствует формату вывода, необходимому в реальных приложениях. Это позволяет модели адаптироваться к реальным сценариям использования уже на этапе предварительного обучения. Например, преобразование фактов из онлайн-форумов в стиль взаимодействия с большой моделью делает эту информацию более естественной и логичной в диалогах, создаваемых моделью.

Принципы генерации синтетических данных Phi-4

Синтетические данные для Phi-4 создавались по следующим принципам:

Разнообразие
Детальность и сложность
Точность
Цепочка рассуждений

Эти принципы обеспечивают качество синтетических данных, которые включают более 50 различных типов наборов данных. Microsoft использовала многоэтапный процесс подсказок, планирование исходных данных, переписывание и расширение, а также саморедактирование для генерации около 400 миллиардов невзвешенных токенов.

Отбор органических данных

В дополнение к синтетическим данным, Phi-4 также использовала строгий отбор и фильтрацию органических данных. Данные собирались из различных источников, включая веб-контент, лицензированные книги и базы кода. Двухэтапный процесс фильтрации позволил извлечь данные с высокой образовательной ценностью и глубиной рассуждений. Эти исходные данные послужили основой для генерации синтетических данных и непосредственно использовались для предварительного обучения, что обогатило знания модели.

Фильтрация и многоязычная обработка

В процессе отбора Microsoft использовала метод фильтрации на основе малых классификаторов для выбора высококачественных документов из больших объемов веб-данных. Специальная обработка была проведена для многоязычных данных, чтобы модель могла обрабатывать несколько языков, включая немецкий, испанский, французский, португальский, итальянский, хинди и японский.

Процесс обучения Phi-4

Предварительное обучение

Основное предварительное обучение Phi-4 проводилось с использованием синтетических данных в сочетании с небольшим количеством высококачественных органических данных. Эта стратегия смешивания данных позволяет модели изучать как рассуждения и навыки решения проблем, так и усваивать богатый объем знаний.

Расширение контекста

В середине обучения Phi-4 увеличила длину контекста с 4096 до 16384 для улучшения обработки длинных текстов. Это включало выборку образцов длиной более 8K контекстов из высококачественных несинтетических наборов данных и создание новых синтетических наборов данных, соответствующих требованиям последовательности 4K.

Пост-тренировка

Пост-тренировка была ключевой для оптимизации Phi-4. Microsoft использовала методы контролируемой тонкой настройки (SFT) и прямого предпочтения оптимизации (DPO).

SFT: Модель была тонко настроена с использованием около 8 миллиардов токенов, сгенерированных из высококачественных данных из разных областей, со скоростью обучения 10-6. Были добавлены многоязычные данные на 40 языках, все в формате chatml.
DPO: Для настройки вывода модели в соответствии с предпочтениями человека использовались данные предпочтений. Microsoft также представила метод поиска ключевых токенов (PTS) для создания пар DPO. Этот метод определяет ключевые токены, которые оказывают значительное влияние на правильность ответа модели, и создает данные предпочтений для этих токенов, тем самым улучшая производительность модели в задачах рассуждения.

Оценка производительности Phi-4

Для оценки производительности Phi-4 Microsoft провела тестирование по нескольким показателям. В академических тестах, таких как MMLU, GPQA, MATH, HumanEval, Phi-4 показала отличные результаты.

MMLU: Phi-4 набрала высокий балл 84,8.
GPQA и MATH: Phi-4 превзошла GPT-4o, продемонстрировав сильные способности к рассуждению в задачах, связанных с математическими соревнованиями.

В сравнении с моделями аналогичного и большего масштаба, Phi-4 превзошла аналогичную открытую модель Qwen-2.5-14B-Instruct в 9 из 12 тестов.