- Published on
Неочаквано разкрит нов модел на Deepseek: Програмирането надминава Claude 3.5 Sonnet
Разкрит е новият модел на Deepseek: Програмирането надминава Claude 3.5 Sonnet
Deepseek-v3, необявен модел, изтече и вече показва впечатляваща производителност. Той надмина Claude 3.5 Sonnet в многоезичния програмен бенчмарк Aider. Deepseek-v3 в момента е най-силният LLM с отворен код на платформата за оценка LiveBench. Архитектурата на модела се отличава с 685B параметърна MoE структура със значителни подобрения спрямо предишните версии.
Основна информация
Изтичането на информация е съобщено за първи път от потребители на Reddit, които са намерили модела достъпен в API и уеб страници. Производителността на Deepseek-v3 е оценена на различни бенчмаркове, включително Aider и LiveBench. Отворените тегла на модела вече са достъпни в Hugging Face, въпреки че карта на модела все още не е налична.
Технически подробности за Deepseek-V3
Архитектура на модела
- Размер на параметрите: 685 милиарда параметъра
- MoE структура: Архитектура "Смес от експерти" с 256 експерта
- Маршрутизация: Използва сигмоидна функция за маршрутизация, избирайки топ 8 експерта (Top-k=8)
- Контекстен прозорец: Поддържа 64K контекст, с по подразбиране 4K и максимум 8K
- Скорост на генериране на токени: Приблизително 60 токена в секунда
Ключови архитектурни промени в сравнение с V2
- Функция за врата: v3 използва сигмоидна функция вместо softmax за избор на експерти. Това позволява на модела да избира от по-голям набор от експерти, за разлика от softmax, който има тенденция да фаворизира няколко.
- Top-k селекция: v3 въвежда нов метод noaux_tc за Top-k селекция, който не изисква спомагателна загуба. Това опростява обучението и подобрява ефективността чрез директно използване на функцията за загуба на основната задача.
- Корекция на резултата на експерта: Добавен е нов параметър, e_score_correction_bias, за коригиране на резултатите на експертите, което води до по-добра производителност по време на избор на експерти и обучение на модела.
Сравнение с V2 и V2.5
- v3 срещу v2: v3 е по същество подобрена версия на v2, със значителни подобрения във всички параметри.
- v3 срещу v2.5: v3 надминава v2.5 по отношение на конфигурацията, включително повече експерти, по-големи размери на междинните слоеве и повече експерти на токен.
Тестване и наблюдения на потребителите
Първоначални тестове Саймън Уилисън, разработчик, тества Deepseek-v3 и установи, че той се идентифицира като базиран на архитектурата на GPT-4 на OpenAI. Моделът беше тестван и за генериране на изображения, създавайки SVG изображение на пеликан, каращ велосипед.
Неочаквана самоидентификация Множество потребители съобщиха, че Deepseek-v3 се е идентифицирал като базиран на модели на OpenAI, вероятно поради използването на отговори на модели на OpenAI по време на обучението.
Реакция на общността
Неочакваното пускане и силната производителност на Deepseek-v3 предизвикаха вълнение в общността. Някои потребители смятат, че производителността на Deepseek-v3 надминава тази на моделите на OpenAI, особено в областта с отворен код.
Допълнителни ресурси
Deepseek-v3 представлява значителен скок в развитието на големите езикови модели с отворен код. Неговата подобрена архитектура, ефективно обучение и превъзходна производителност в сравнение с други модели го правят важен играч в областта на изкуствения интелект. Изтичането на информация за този модел показва, че Deepseek се движи в правилната посока и е готов да предизвика утвърдените играчи в индустрията.