Неочаквано разкрит нов модел на Deepseek: Програмирането надминава Claude 3.5 Sonnet

Разкрит е новият модел на Deepseek: Програмирането надминава Claude 3.5 Sonnet

Deepseek-v3, необявен модел, изтече и вече показва впечатляваща производителност. Той надмина Claude 3.5 Sonnet в многоезичния програмен бенчмарк Aider. Deepseek-v3 в момента е най-силният LLM с отворен код на платформата за оценка LiveBench. Архитектурата на модела се отличава с 685B параметърна MoE структура със значителни подобрения спрямо предишните версии.

Основна информация

Изтичането на информация е съобщено за първи път от потребители на Reddit, които са намерили модела достъпен в API и уеб страници. Производителността на Deepseek-v3 е оценена на различни бенчмаркове, включително Aider и LiveBench. Отворените тегла на модела вече са достъпни в Hugging Face, въпреки че карта на модела все още не е налична.

Технически подробности за Deepseek-V3

Архитектура на модела

Размер на параметрите: 685 милиарда параметъра
MoE структура: Архитектура "Смес от експерти" с 256 експерта
Маршрутизация: Използва сигмоидна функция за маршрутизация, избирайки топ 8 експерта (Top-k=8)
Контекстен прозорец: Поддържа 64K контекст, с по подразбиране 4K и максимум 8K
Скорост на генериране на токени: Приблизително 60 токена в секунда

Ключови архитектурни промени в сравнение с V2

Функция за врата: v3 използва сигмоидна функция вместо softmax за избор на експерти. Това позволява на модела да избира от по-голям набор от експерти, за разлика от softmax, който има тенденция да фаворизира няколко.
Top-k селекция: v3 въвежда нов метод noaux_tc за Top-k селекция, който не изисква спомагателна загуба. Това опростява обучението и подобрява ефективността чрез директно използване на функцията за загуба на основната задача.
Корекция на резултата на експерта: Добавен е нов параметър, e_score_correction_bias, за коригиране на резултатите на експертите, което води до по-добра производителност по време на избор на експерти и обучение на модела.

Сравнение с V2 и V2.5

v3 срещу v2: v3 е по същество подобрена версия на v2, със значителни подобрения във всички параметри.
v3 срещу v2.5: v3 надминава v2.5 по отношение на конфигурацията, включително повече експерти, по-големи размери на междинните слоеве и повече експерти на токен.

Тестване и наблюдения на потребителите

Първоначални тестове Саймън Уилисън, разработчик, тества Deepseek-v3 и установи, че той се идентифицира като базиран на архитектурата на GPT-4 на OpenAI. Моделът беше тестван и за генериране на изображения, създавайки SVG изображение на пеликан, каращ велосипед.

Неочаквана самоидентификация Множество потребители съобщиха, че Deepseek-v3 се е идентифицирал като базиран на модели на OpenAI, вероятно поради използването на отговори на модели на OpenAI по време на обучението.

Реакция на общността

Неочакваното пускане и силната производителност на Deepseek-v3 предизвикаха вълнение в общността. Някои потребители смятат, че производителността на Deepseek-v3 надминава тази на моделите на OpenAI, особено в областта с отворен код.

Допълнителни ресурси

Deepseek-v3 представлява значителен скок в развитието на големите езикови модели с отворен код. Неговата подобрена архитектура, ефективно обучение и превъзходна производителност в сравнение с други модели го правят важен играч в областта на изкуствения интелект. Изтичането на информация за този модел показва, че Deepseek се движи в правилната посока и е готов да предизвика утвърдените играчи в индустрията.