Published on

Китайский стартап DeepSeek: история технологического идеализма

Авторы
  • avatar
    Имя
    Ajax
    Twitter

DeepSeek, китайский стартап в области искусственного интеллекта, привлекает к себе внимание благодаря своему подходу, ориентированному на фундаментальные исследования и инновации в архитектуре моделей, а не просто на разработку приложений. Они бросают вызов представлению о том, что Китай хорош только в прикладных инновациях, стремясь стать участником глобального технологического прогресса. Подход DeepSeek основан на долгосрочном видении достижения общего искусственного интеллекта (AGI), при этом исследования ставятся выше немедленной коммерциализации.

Предпосылки

DeepSeek возникла из фирмы по количественной торговле High-Flyer и изначально привлекла внимание своей масштабной инфраструктурой для ИИ-чипов. Недавно компания попала в заголовки газет, выпустив DeepSeek V2, модель с открытым исходным кодом и значительно более низкими затратами на вывод, что спровоцировало ценовую войну среди китайских компаний, занимающихся искусственным интеллектом. Инновационная архитектура MLA и структура DeepSeekMoESparse привели к значительному сокращению использования памяти и вычислительных затрат.

Уникальный подход DeepSeek

  • Акцент на фундаментальных исследованиях: В отличие от многих китайских ИИ-компаний, которые отдают приоритет разработке приложений, DeepSeek занимается исследованиями и инновациями в архитектуре моделей.
  • Отказ от "копирования": DeepSeek активно оспаривает идею о том, что Китай должен только следовать и применять существующие технологии, вместо этого стремясь внести свой вклад в глобальные инновации.
  • Долгосрочное видение: Конечная цель DeepSeek - достижение AGI, что определяет их внимание к фундаментальным исследованиям и долгосрочному развитию.
  • Приверженность открытому исходному коду: DeepSeek решила выпустить свои модели с открытым исходным кодом, отдавая приоритет развитию экосистемы ИИ, а не немедленной коммерческой выгоде.
  • Акцент на команде и культуре: DeepSeek считает, что их конкурентное преимущество заключается в росте команды, накопленных знаниях и инновационной культуре.

Ключевые инновации

  • Архитектура MLA (Multi-head Latent Attention): Эта новая архитектура значительно снижает использование памяти по сравнению с традиционными архитектурами MHA.
  • Структура DeepSeekMoESparse: Эта структура минимизирует вычислительные затраты, способствуя общему снижению затрат на вывод.
  • Конструирование данных и моделирование, подобное человеческому: DeepSeek также уделяет внимание улучшению конструирования данных и созданию моделей, более похожих на человеческие.

Взгляд DeepSeek на ландшафт ИИ

  • Вызов статус-кво: DeepSeek считает, что Китаю необходимо выйти за рамки "бесплатного наездника" и стать участником глобальных технологических инноваций.
  • Устранение разрыва: DeepSeek признает разрыв между китайскими и западными возможностями в области ИИ, особенно в структуре моделей и эффективности обучения, и активно работает над его устранением.
  • За пределами коммерциализации: DeepSeek считает, что инновации обусловлены не только коммерческими интересами, но и любопытством и творчеством.
  • Важность открытого исходного кода: DeepSeek рассматривает открытый исходный код как культурный акт, способствующий сотрудничеству и инновациям, а не как коммерческую стратегию.
  • Ценность оригинальности: DeepSeek подчеркивает важность оригинальных инноваций, а не имитации, подчеркивая долгосрочные выгоды от вклада в глобальное технологическое сообщество.

Основатель DeepSeek, Лян Вэнфэн

  • Техническая экспертиза: Лян Вэнфэн описан как редкий человек с сильными возможностями в области инфраструктурного проектирования и исследований моделей.
  • Практический подход: Он активно участвует в исследованиях, программировании и командных обсуждениях, а не просто выступает в качестве менеджера.
  • Идеалистическое видение: Лян Вэнфэн - технологический идеалист, который отдает приоритет этическим соображениям, а не прибыли, и подчеркивает важность оригинальных инноваций.
  • Акцент на долгосрочном воздействии: Он сосредоточен на том, чтобы внести свой вклад в развитие ИИ и общую эффективность общества.

Команда и культура DeepSeek

  • Привлечение талантов: DeepSeek сосредотачивается на найме людей со страстью к исследованиям и сильным чувством любопытства, часто выбирая кандидатов с уникальным опытом.
  • Самоорганизующиеся команды: DeepSeek продвигает структуру самоорганизующихся команд, где людям рекомендуется реализовывать свои идеи и сотрудничать с другими.
  • Гибкое распределение ресурсов: Участники команды имеют свободу распределять ресурсы, такие как вычислительная мощность и персонал, по мере необходимости.
  • Акцент на страсти: DeepSeek отдает приоритет страсти к исследованиям, а не финансовым стимулам, привлекая людей, которые стремятся решать сложные проблемы.

Перспективы DeepSeek на будущее

  • Нет планов на закрытый исходный код: DeepSeek привержена тому, чтобы оставаться открытым исходным кодом, считая, что сильная технологическая экосистема важнее краткосрочных выгод.
  • Нет немедленной потребности в финансировании: DeepSeek в настоящее время не ищет финансирования, поскольку их основной проблемой является доступ к высокопроизводительным чипам.
  • Акцент на фундаментальных исследованиях: DeepSeek продолжит уделять первоочередное внимание фундаментальным исследованиям и инновациям, а не разработке приложений.
  • Долгосрочное видение AGI: DeepSeek с оптимизмом смотрит на будущее ИИ и считает, что AGI будет достигнут при их жизни.
  • Акцент на специализации: DeepSeek видит будущее, в котором специализированные компании предоставляют базовые модели и услуги, позволяя другим строить на их основе.