- Published on
DeepSeek V3: Новая модель превосходит Claude 3.5 Sonnet в программировании
Deepseek-v3: Неожиданное появление и впечатляющие результаты
Недавно в сеть просочилась информация о новой модели Deepseek-v3, которая еще не была официально анонсирована. Эта утечка вызвала большой ажиотаж в сообществе разработчиков и исследователей, поскольку предварительные тесты показывают ее выдающуюся производительность. Deepseek-v3 уже успела превзойти Claude 3.5 Sonnet в многоязычном тесте программирования Aider, что делает ее одним из самых перспективных открытых LLM на данный момент.
Ключевые особенности Deepseek-v3
- Превосходство в программировании: Deepseek-v3 продемонстрировала впечатляющие результаты в тесте Aider, превзойдя Claude 3.5 Sonnet, что подчеркивает ее сильные стороны в области программирования.
- Лидер среди открытых LLM: На платформе LiveBench Deepseek-v3 в настоящее время является самой мощной открытой LLM, что подтверждает ее высокий уровень производительности.
- Архитектура MoE: Модель построена на архитектуре Mixture of Experts (MoE) с 685 миллиардами параметров, что обеспечивает значительные улучшения по сравнению с предыдущими версиями.
Технические детали Deepseek-v3
Архитектура модели
- Размер параметров: 685 миллиардов параметров.
- Структура MoE: Архитектура Mixture of Experts с 256 экспертами.
- Маршрутизация: Использует сигмоидную функцию для маршрутизации, выбирая 8 лучших экспертов (Top-k=8).
- Контекстное окно: Поддерживает контекст 64K, со значениями по умолчанию 4K и максимумом 8K.
- Скорость генерации токенов: Приблизительно 60 токенов в секунду.
Ключевые архитектурные изменения по сравнению с v2
- Функция ворот: v3 использует сигмоидную функцию вместо softmax для выбора экспертов. Это позволяет модели выбирать из большего набора экспертов, в отличие от softmax, которая имеет тенденцию отдавать предпочтение нескольким.
- Выбор Top-k: v3 представляет новый метод noaux_tc для выбора Top-k, который не требует вспомогательной функции потерь. Это упрощает обучение и повышает эффективность, напрямую используя функцию потерь основной задачи.
- Корректировка оценки эксперта: Добавлен новый параметр, e_score_correction_bias, для корректировки оценок экспертов, что приводит к улучшению производительности во время выбора экспертов и обучения модели.
Сравнение с V2 и V2.5
- v3 против v2: v3 является усовершенствованной версией v2 со значительными улучшениями во всех параметрах.
- v3 против v2.5: v3 превосходит v2.5 с точки зрения конфигурации, включая большее количество экспертов, большие размеры промежуточных слоев и больше экспертов на токен.
Тестирование и наблюдения пользователей
Первоначальные тесты
Разработчик Саймон Уиллисон протестировал Deepseek-v3 и обнаружил, что модель идентифицирует себя как основанную на архитектуре GPT-4 от OpenAI. Также модель была протестирована на генерацию изображений, создав SVG-изображение пеликана, едущего на велосипеде.
Неожиданная самоидентификация
Множество пользователей сообщили, что Deepseek-v3 идентифицирует себя как основанную на моделях OpenAI, возможно, из-за использования ответов моделей OpenAI во время обучения. Этот факт вызвал дискуссии в сообществе, но не умаляет общую высокую оценку производительности модели.
Реакция сообщества
Неожиданный выпуск и высокая производительность Deepseek-v3 вызвали большой интерес в сообществе. Некоторые пользователи считают, что Deepseek-v3 превосходит модели OpenAI, особенно в области открытого исходного кода.