- Published on
DeepSeek V3: Революционная Открытая Модель Искусственного Интеллекта
DeepSeek V3, модель со смесью экспертов (MoE) с 671 миллиардами параметров, была выпущена и открыта, вызвав ажиотаж в сообществе ИИ.
Она обучена на 14,8 триллионах высококачественных токенов, при этом во время инференции активируется всего 37 миллиардов параметров.
Модель достигает передовых (SOTA) показателей среди моделей с открытым исходным кодом, превосходя Llama 3.1 405B и конкурируя с топовыми моделями, такими как GPT-4o и Claude 3.5 Sonnet.
DeepSeek V3 значительно дешевле моделей Claude 3.5, ее стоимость составляет всего 9% от Claude 3.5 Sonnet.
Экономически Эффективное Обучение
Обучение DeepSeek V3 потребовало менее 2,8 миллиона часов GPU, что резко контрастирует с 30,8 миллионами часов GPU для Llama 3 405B.
Общая стоимость обучения DeepSeek V3 составила приблизительно 5,576 миллиона долларов, в то время как обучение модели Llama 2 с 7 миллиардами параметров стоит 760 000 долларов.
Эта экономическая эффективность объясняется оптимизированными алгоритмами, фреймворками и аппаратным обеспечением.
Карпати, один из основателей OpenAI, отметил, что DeepSeek V3 достигает сопоставимой производительности с значительно меньшими ресурсами, подчеркивая потенциал оптимизации в данных и алгоритмах.
Производительность и Оценка
DeepSeek V3 получила высокую оценку от экспертов в области ИИ, таких как Цзя Янцин и Тянь Юндун из Meta.
Она превосходит другие модели с открытым исходным кодом, такие как Qwen2.5-72B и Llama-3.1-405B, по различным бенчмаркам.
Производительность модели сопоставима с топовыми моделями с закрытым исходным кодом, такими как GPT-4o и Claude-3.5-Sonnet.
DeepSeek V3 генерирует токены со скоростью 60 в секунду, что в 3 раза быстрее.
Ценообразование API также очень конкурентоспособное, при этом входные токены стоят 0,5-2 юаня за миллион, а выходные токены – 8 юаней за миллион.
Оценка Kagi ставит DeepSeek V3 на первое место среди моделей с открытым исходным кодом, близко к Sonnet-3.5 и GPT-4o.
Вовлечение Сообщества
Модель доступна для тестирования на официальной платформе, а код открыт для скачивания.
Энтузиасты ИИ экспериментируют с DeepSeek V3, включая запуск ее на стекированных Mac Mini.
Разработчики выразили удивление способностью модели понимать сложные инструкции без явных объяснений.
Один разработчик создал игру с использованием логотипов компаний ИИ с помощью DeepSeek V3 за короткое время.
Была подчеркнута низкая стоимость запуска DeepSeek V3, при этом один пользователь отметил, что ее запуск со скоростью 60 токенов в секунду обходится всего в 2 доллара в день.
Детали Обучения
Обучение DeepSeek V3 было оптимизировано за счет алгоритмических, фреймворковых и аппаратных улучшений.
Модель была обучена на одном триллионе токенов за 180 000 часов GPU, завершив предварительное обучение менее чем за два месяца.
Общая стоимость обучения составила 2,788 миллиона часов GPU, или 5,576 миллиона долларов.
Ключевые оптимизации включают:
- Балансировка Нагрузки: Новая стратегия балансировки нагрузки с членами смещения для каждого эксперта в архитектуре MoE.
- Многотокенное Прогнозирование (MTP): Цель обучения, которая улучшает производительность модели и обеспечивает более быструю инференцию за счет спекулятивного декодирования.
- Обучение FP8: Использование обучения со смешанной точностью FP8, демонстрирующее его применимость для крупномасштабных моделей.
- DualPipe: Эффективный алгоритм параллельной конвейерной обработки, который перекрывает вычисления и коммуникацию, снижая накладные расходы на связь.
Архитектура MoE состоит из 256 экспертов маршрутизации и 1 общего эксперта, при этом каждый токен активирует 8 экспертов и отправляется максимум на 4 узла.
Избыточные эксперты развертываются для балансировки нагрузки во время инференции.
Возможности инференции модели были улучшены путем извлечения знаний из модели длинной цепочки (DeepSeek R1).
Экспериментальные Результаты
DeepSeek V3 достигает SOTA-показателей среди моделей с открытым исходным кодом по различным бенчмаркам.
Модель хорошо справляется с экспериментами типа "иголка в стоге сена", демонстрируя свою способность извлекать конкретную информацию из длинных контекстов.
Ресурсы
- Технический отчет: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3
DeepSeek V3 представляет собой значительный прорыв в области открытых моделей ИИ. Ее экономичность, производительность и доступность делают ее привлекательной для широкого круга исследователей, разработчиков и энтузиастов ИИ. Модель демонстрирует потенциал для оптимизации в данных и алгоритмах, что открывает новые возможности для развития искусственного интеллекта. Оптимизации, такие как балансировка нагрузки, многотокенное прогнозирование, обучение FP8 и DualPipe, вносят значительный вклад в эффективность и скорость работы модели. DeepSeek V3 также показывает отличные результаты в экспериментах с длинными контекстами, что подчеркивает ее способность обрабатывать и извлекать информацию из больших объемов данных.
Сообщество ИИ активно участвует в тестировании и использовании DeepSeek V3, что способствует дальнейшему развитию и совершенствованию этой передовой модели. Низкая стоимость запуска модели позволяет использовать ее даже на ограниченных ресурсах, что делает ее более доступной для широкого круга пользователей. DeepSeek V3 не только превосходит другие открытые модели, но и конкурирует с ведущими закрытыми моделями, что делает ее важным достижением в области искусственного интеллекта.