Published on

DeepSeek: Китайски технологичен идеалист, променящ AI пейзажа

Автори
  • avatar
    Име
    Ajax
    Twitter

DeepSeek: Китайски технологичен идеалист, променящ AI пейзажа

DeepSeek, китайски AI стартъп, предизвиква вълнение в технологичния свят със своя фокус върху фундаментални изследвания и иновации в архитектурата на моделите, а не просто върху разработването на приложения. Те активно оспорват идеята, че Китай е добър само в иновациите на приложения, стремейки се да бъдат значим принос към глобалните технологични постижения. Този подход е движен от дългосрочна визия за постигане на Общ Изкуствен Интелект (AGI), поставяйки изследванията пред незабавната комерсиализация.

DeepSeek израства от фирмата за количествена търговия High-Flyer, първоначално привличайки внимание с мащабната си AI чип инфраструктура. Наскоро компанията попадна в заглавията с пускането на DeepSeek V2, модел с отворен код, значително намаляващ разходите за извод, което предизвика ценова война сред китайските AI компании. Иновативната MLA архитектура и DeepSeekMoESparse структура доведоха до значително намаление на използването на памет и изчислителните разходи.

Уникален подход на DeepSeek

  • Фокус върху фундаментални изследвания: За разлика от много китайски AI компании, които поставят приоритет върху разработването на приложения, DeepSeek е посветена на изследвания и иновации в архитектурата на моделите.
  • Отхвърляне на подхода "имитация": DeepSeek активно оспорва идеята, че Китай трябва само да следва и прилага съществуващи технологии, като вместо това се стреми да допринесе за глобалните иновации.
  • Дългосрочна визия: Крайната цел на DeepSeek е да постигне AGI, което движи техния фокус върху фундаменталните изследвания и дългосрочното развитие.
  • Ангажимент към отворен код: DeepSeek избра да пусне своите модели като отворен код, поставяйки приоритет върху растежа на AI екосистемата пред незабавните търговски печалби.
  • Акцент върху екипа и културата: DeepSeek вярва, че конкурентното им предимство се крие в растежа на екипа, натрупаните знания и иновативната култура.

Ключови иновации

  • MLA (Multi-head Latent Attention) архитектура: Тази нова архитектура значително намалява използването на памет в сравнение с традиционните MHA архитектури.
  • DeepSeekMoESparse структура: Тази структура минимизира изчислителните разходи, което допринася за общото намаление на разходите за извод.
  • Конструкция на данни и човекоподобно моделиране: DeepSeek също се фокусира върху подобряването на конструкцията на данни и правенето на моделите по-човекоподобни.

Перспективата на DeepSeek за AI пейзажа

  • Предизвикване на статуквото: DeepSeek вярва, че Китай трябва да премине отвъд ролята на "безплатен ездач" и да стане приносител на глобални технологични иновации.
  • Адресиране на разликата: DeepSeek признава разликата между китайските и западните AI възможности, особено в структурата на моделите и ефективността на обучението, и активно работи за нейното преодоляване.
  • Отвъд комерсиализацията: DeepSeek вярва, че иновациите не се движат единствено от търговски интереси, а и от любопитство и креативност.
  • Значението на отворения код: DeepSeek вижда отворения код като културен акт, който насърчава сътрудничеството и иновациите, а не като търговска стратегия.
  • Стойността на оригиналността: DeepSeek подчертава важността на оригиналните иновации пред имитацията, като изтъква дългосрочните ползи от приноса към глобалната технологична общност.

Основателят на DeepSeek, Лианг Венфенг

  • Техническа експертиза: Лианг Венфенг е описан като рядък индивид със силни възможности в областта на инфраструктурното инженерство и изследванията на модели.
  • Практически подход: Той е активно ангажиран в изследвания, кодиране и екипни дискусии, а не просто действа като мениджър.
  • Идеалистична визия: Лианг Венфенг е технологичен идеалист, който поставя етичните съображения пред печалбата и подчертава важността на оригиналните иновации.
  • Фокус върху дългосрочното въздействие: Той е фокусиран върху приноса към напредъка на AI и общата ефективност на обществото.

Екипът и културата на DeepSeek

  • Привличане на таланти: DeepSeek се фокусира върху наемането на лица със страст към изследванията и силно чувство за любопитство, често избирайки кандидати с уникален опит.
  • Самоорганизирани екипи: DeepSeek насърчава самоорганизираща се екипна структура, където хората са насърчавани да преследват своите идеи и да си сътрудничат с другите.
  • Гъвкаво разпределение на ресурсите: Членовете на екипа имат свободата да разпределят ресурси, като изчислителна мощност и персонал, според нуждите.
  • Акцент върху страстта: DeepSeek поставя приоритет върху страстта към изследванията пред финансовите стимули, привличайки хора, които са движени от желанието да решават предизвикателни проблеми.

Бъдещи перспективи на DeepSeek

  • Няма планове за затворен код: DeepSeek е решена да остане с отворен код, вярвайки, че силна технологична екосистема е по-важна от краткосрочните печалби.
  • Няма непосредствени нужди от финансиране: DeepSeek не търси в момента финансиране, тъй като основното им предизвикателство е достъпът до чипове от висок клас.
  • Фокус върху фундаментални изследвания: DeepSeek ще продължи да дава приоритет на фундаменталните изследвания и иновации, а не на разработването на приложения.
  • Дългосрочна визия за AGI: DeepSeek е оптимистична за бъдещето на AI и вярва, че AGI ще бъде постигнат в рамките на техния живот.
  • Акцент върху специализацията: DeepSeek предвижда бъдеще, в което специализирани компании предоставят основни модели и услуги, позволявайки на другите да надграждат върху тях.