DeepSeek V3: Новая модель превосходит Claude 3.5 Sonnet в программировании

Deepseek-v3: Неожиданное появление и впечатляющие результаты

Недавно в сеть просочилась информация о новой модели Deepseek-v3, которая еще не была официально анонсирована. Эта утечка вызвала большой ажиотаж в сообществе разработчиков и исследователей, поскольку предварительные тесты показывают ее выдающуюся производительность. Deepseek-v3 уже успела превзойти Claude 3.5 Sonnet в многоязычном тесте программирования Aider, что делает ее одним из самых перспективных открытых LLM на данный момент.

Ключевые особенности Deepseek-v3

Превосходство в программировании: Deepseek-v3 продемонстрировала впечатляющие результаты в тесте Aider, превзойдя Claude 3.5 Sonnet, что подчеркивает ее сильные стороны в области программирования.
Лидер среди открытых LLM: На платформе LiveBench Deepseek-v3 в настоящее время является самой мощной открытой LLM, что подтверждает ее высокий уровень производительности.
Архитектура MoE: Модель построена на архитектуре Mixture of Experts (MoE) с 685 миллиардами параметров, что обеспечивает значительные улучшения по сравнению с предыдущими версиями.

Технические детали Deepseek-v3

Архитектура модели

Размер параметров: 685 миллиардов параметров.
Структура MoE: Архитектура Mixture of Experts с 256 экспертами.
Маршрутизация: Использует сигмоидную функцию для маршрутизации, выбирая 8 лучших экспертов (Top-k=8).
Контекстное окно: Поддерживает контекст 64K, со значениями по умолчанию 4K и максимумом 8K.
Скорость генерации токенов: Приблизительно 60 токенов в секунду.

Ключевые архитектурные изменения по сравнению с v2

Функция ворот: v3 использует сигмоидную функцию вместо softmax для выбора экспертов. Это позволяет модели выбирать из большего набора экспертов, в отличие от softmax, которая имеет тенденцию отдавать предпочтение нескольким.
Выбор Top-k: v3 представляет новый метод noaux_tc для выбора Top-k, который не требует вспомогательной функции потерь. Это упрощает обучение и повышает эффективность, напрямую используя функцию потерь основной задачи.
Корректировка оценки эксперта: Добавлен новый параметр, e_score_correction_bias, для корректировки оценок экспертов, что приводит к улучшению производительности во время выбора экспертов и обучения модели.

Сравнение с V2 и V2.5

v3 против v2: v3 является усовершенствованной версией v2 со значительными улучшениями во всех параметрах.
v3 против v2.5: v3 превосходит v2.5 с точки зрения конфигурации, включая большее количество экспертов, большие размеры промежуточных слоев и больше экспертов на токен.

Тестирование и наблюдения пользователей

Первоначальные тесты

Разработчик Саймон Уиллисон протестировал Deepseek-v3 и обнаружил, что модель идентифицирует себя как основанную на архитектуре GPT-4 от OpenAI. Также модель была протестирована на генерацию изображений, создав SVG-изображение пеликана, едущего на велосипеде.

Неожиданная самоидентификация

Множество пользователей сообщили, что Deepseek-v3 идентифицирует себя как основанную на моделях OpenAI, возможно, из-за использования ответов моделей OpenAI во время обучения. Этот факт вызвал дискуссии в сообществе, но не умаляет общую высокую оценку производительности модели.

Реакция сообщества

Неожиданный выпуск и высокая производительность Deepseek-v3 вызвали большой интерес в сообществе. Некоторые пользователи считают, что Deepseek-v3 превосходит модели OpenAI, особенно в области открытого исходного кода.