- Published on
Microsoft выпустила мощную модель Phi-4, превосходящую GPT-4o
Введение
Недавно исследовательское подразделение Microsoft Research представило свою новую модель с малым количеством параметров, Phi-4. Эта модель вызвала большой интерес благодаря своей высокой производительности. Phi-4 имеет всего 14 миллиардов параметров, но ее результаты в различных тестах впечатляют, превосходя даже OpenAI GPT-4o и другие ведущие открытые модели, такие как Qwen 2.5-14B и Llama-3.3-70B.
Превосходство в тестах
В частности, Phi-4 показала отличный результат в 91,8 балла на американском математическом конкурсе AMC, превзойдя многие известные открытые и закрытые модели, включая Gemini Pro 1.5 и Claude 3.5 Sonnet. Ее общая производительность сравнима с Llama-3.1, которая имеет 405 миллиардов параметров.
Открытый исходный код и коммерческое использование
Этот шаг вызвал большой резонанс в сообществе, поскольку ранее пользователи загружали пиратские версии весов Phi-4 на Hugging Face. Теперь Microsoft официально открыла исходный код Phi-4 под лицензией MIT, разрешающей коммерческое использование.
- Ссылка на открытый исходный код: phi-4
Hugging Face также поздравила с открытием Phi-4, что подчеркивает ее значимость.
Ключевые преимущества Phi-4: Синтетические данные и точная настройка
Успех Phi-4 с таким небольшим количеством параметров обусловлен использованием высококачественных синтетических данных. В отличие от традиционных данных, полученных путем веб-сканирования, синтетические данные обеспечивают более структурированный и последовательный материал для обучения, помогая модели более эффективно изучать логику языка и процессы рассуждения.
Структурированное обучение
Синтетические данные могут быть представлены поэтапно, например, в решении математических задач, что помогает модели лучше понимать структуру задач и подходы к их решению.
Согласование с контекстом
Синтетические данные лучше согласованы с контекстом рассуждений модели, что больше соответствует формату вывода, необходимому в реальных приложениях. Это позволяет модели адаптироваться к реальным сценариям использования уже на этапе предварительного обучения. Например, преобразование фактов из онлайн-форумов в стиль взаимодействия с большой моделью делает эту информацию более естественной и логичной в диалогах, создаваемых моделью.
Принципы генерации синтетических данных Phi-4
Синтетические данные для Phi-4 создавались по следующим принципам:
- Разнообразие
- Детальность и сложность
- Точность
- Цепочка рассуждений
Эти принципы обеспечивают качество синтетических данных, которые включают более 50 различных типов наборов данных. Microsoft использовала многоэтапный процесс подсказок, планирование исходных данных, переписывание и расширение, а также саморедактирование для генерации около 400 миллиардов невзвешенных токенов.
Отбор органических данных
В дополнение к синтетическим данным, Phi-4 также использовала строгий отбор и фильтрацию органических данных. Данные собирались из различных источников, включая веб-контент, лицензированные книги и базы кода. Двухэтапный процесс фильтрации позволил извлечь данные с высокой образовательной ценностью и глубиной рассуждений. Эти исходные данные послужили основой для генерации синтетических данных и непосредственно использовались для предварительного обучения, что обогатило знания модели.
Фильтрация и многоязычная обработка
В процессе отбора Microsoft использовала метод фильтрации на основе малых классификаторов для выбора высококачественных документов из больших объемов веб-данных. Специальная обработка была проведена для многоязычных данных, чтобы модель могла обрабатывать несколько языков, включая немецкий, испанский, французский, португальский, итальянский, хинди и японский.
Процесс обучения Phi-4
Предварительное обучение
Основное предварительное обучение Phi-4 проводилось с использованием синтетических данных в сочетании с небольшим количеством высококачественных органических данных. Эта стратегия смешивания данных позволяет модели изучать как рассуждения и навыки решения проблем, так и усваивать богатый объем знаний.
Расширение контекста
В середине обучения Phi-4 увеличила длину контекста с 4096 до 16384 для улучшения обработки длинных текстов. Это включало выборку образцов длиной более 8K контекстов из высококачественных несинтетических наборов данных и создание новых синтетических наборов данных, соответствующих требованиям последовательности 4K.
Пост-тренировка
Пост-тренировка была ключевой для оптимизации Phi-4. Microsoft использовала методы контролируемой тонкой настройки (SFT) и прямого предпочтения оптимизации (DPO).
- SFT: Модель была тонко настроена с использованием около 8 миллиардов токенов, сгенерированных из высококачественных данных из разных областей, со скоростью обучения 10-6. Были добавлены многоязычные данные на 40 языках, все в формате chatml.
- DPO: Для настройки вывода модели в соответствии с предпочтениями человека использовались данные предпочтений. Microsoft также представила метод поиска ключевых токенов (PTS) для создания пар DPO. Этот метод определяет ключевые токены, которые оказывают значительное влияние на правильность ответа модели, и создает данные предпочтений для этих токенов, тем самым улучшая производительность модели в задачах рассуждения.
Оценка производительности Phi-4
Для оценки производительности Phi-4 Microsoft провела тестирование по нескольким показателям. В академических тестах, таких как MMLU, GPQA, MATH, HumanEval, Phi-4 показала отличные результаты.
- MMLU: Phi-4 набрала высокий балл 84,8.
- GPQA и MATH: Phi-4 превзошла GPT-4o, продемонстрировав сильные способности к рассуждению в задачах, связанных с математическими соревнованиями.
В сравнении с моделями аналогичного и большего масштаба, Phi-4 превзошла аналогичную открытую модель Qwen-2.5-14B-Instruct в 9 из 12 тестов.