- Published on
DeepSeek V3: Революционен Модел с Отворен Код
DeepSeek V3: Революционен Модел с Отворен Код
DeepSeek V3, модел със 671 милиарда параметри, използващ архитектурата Mixture-of-Experts (MoE), беше пуснат с отворен код, предизвиквайки голям интерес в AI общността. Този впечатляващ модел е обучен на 14.8 трилиона висококачествени токена, като по време на извод се активират само 37 милиарда параметри.
Изключителна Производителност
DeepSeek V3 постига върхови резултати (SOTA) сред моделите с отворен код, превъзхождайки Llama 3.1 405B и съперничейки на водещи модели като GPT-4o и Claude 3.5 Sonnet. Това постижение е особено забележително, като се има предвид, че DeepSeek V3 е значително по-евтин от моделите на Claude 3.5, струвайки едва 9% от цената на Claude 3.5 Sonnet.
Икономично Обучение
Обучението на DeepSeek V3 изисква по-малко от 2.8 милиона GPU часа, което е рязък контраст с 30.8 милиона GPU часа, необходими за Llama 3 405B. Общата стойност на обучението за DeepSeek V3 възлиза на приблизително 5.576 милиона долара, докато обучението на 7B Llama 2 модел струва 760 000 долара. Тази икономичност се дължи на оптимизирани алгоритми, рамки и хардуер.
Андрей Карпати, основател на OpenAI, отбеляза, че DeepSeek V3 постига сравнима производителност със значително по-малко ресурси, подчертавайки потенциала за оптимизация в данните и алгоритмите.
Оценка и Похвали
DeepSeek V3 получи похвали от AI експерти като Джиа Янгкинг и Тиан Юндонг от Meta. Той превъзхожда други модели с отворен код, като Qwen2.5-72B и Llama-3.1-405B, в различни бенчмаркове. Производителността на модела е сравнима с водещи затворени модели като GPT-4o и Claude-3.5-Sonnet. DeepSeek V3 генерира токени със скорост 60 в секунда, което е 3 пъти по-бързо от предишни модели.
API ценообразуването също е много конкурентно, като входните токени струват 0.5-2 RMB на милион, а изходните токени струват 8 RMB на милион. Оценката на Kagi поставя DeepSeek V3 на върха на моделите с отворен код, непосредствено зад Sonnet-3.5 и GPT-4o.
Ангажираност на Общността
Моделът е достъпен за тестване на официалната платформа, като кодът е с отворен код за изтегляне. Ентусиастите на AI експериментират с DeepSeek V3, включително го стартират на стекове от Mac Mini. Разработчиците изразиха възхищение от способността на модела да разбира сложни инструкции без изрични обяснения. Един разработчик създаде игра с лога на AI компании с DeepSeek V3 за кратко време. Ниската цена за стартиране на DeepSeek V3 беше подчертана, като един потребител отбеляза, че струва само 2 долара на ден за работа при 60 токена в секунда.
Детайли за Обучението
Обучението на DeepSeek V3 беше оптимизирано чрез алгоритмични, рамкови и хардуерни подобрения. Моделът беше обучен на един трилион токена за 180 000 GPU часа, завършвайки предварителното обучение за по-малко от два месеца. Общата стойност на обучението беше 2.788 милиона GPU часа, или 5.576 милиона долара.
Ключовите оптимизации включват:
- Балансиране на Натоварването: Нова стратегия за балансиране на натоварването с термини на отклонение за всеки експерт в MoE архитектурата.
- Мулти-Токен Прогнозиране (MTP): Цел за обучение, която подобрява производителността на модела и позволява по-бърз извод чрез спекулативно декодиране.
- FP8 Обучение: Използването на FP8 смесено-прецизно обучение, демонстрирайки неговата приложимост за мащабни модели.
- DualPipe: Ефективен паралелен алгоритъм за тръбопровод, който припокрива изчислението и комуникацията, намалявайки комуникационните разходи.
MoE архитектурата се състои от 256 маршрутизиращи експерти и 1 споделен експерт, като всеки токен активира 8 експерта и се изпраща до максимум 4 възела. Излишни експерти се разполагат за балансиране на натоварването по време на извод. Възможностите за извод на модела бяха подобрени чрез дестилиране на знания от дълговерижен модел (DeepSeek R1).
Експериментални Резултати
DeepSeek V3 постига SOTA производителност сред моделите с отворен код в различни бенчмаркове. Моделът се представя добре в експерименти "игла в купа сено", демонстрирайки способността си да извлича конкретна информация от дълги контексти.
Ресурси
- Технически Доклад: DeepSeek_V3.pdf
- Hugging Face: DeepSeek-V3