Published on

중국 AI 스타트업 DeepSeek: 기초 연구와 혁신을 향한 이상주의적 여정

저자
  • avatar
    이름
    Ajax
    Twitter

DeepSeek: 중국 기술 이상주의 이야기

DeepSeek는 중국의 인공지능 스타트업으로, 단순한 응용 개발이 아닌 모델 아키텍처의 기초 연구와 혁신에 집중하며 업계에 큰 반향을 일으키고 있습니다. 이들은 중국이 응용 혁신에만 강하다는 기존의 통념에 도전하며, 글로벌 기술 발전에 기여하는 것을 목표로 합니다. DeepSeek의 접근 방식은 인공 일반 지능(AGI) 달성이라는 장기적인 비전에 기반하며, 즉각적인 상업화보다는 연구를 우선시합니다.

배경

DeepSeek는 퀀트 트레이딩 회사인 High-Flyer에서 출발했으며, 초기에는 대규모 AI 칩 인프라로 주목을 받았습니다. 최근에는 추론 비용을 크게 낮춘 오픈 소스 모델 DeepSeek V2를 출시하여 중국 AI 기업들 간의 가격 경쟁을 촉발시키며 화제가 되었습니다. DeepSeek의 혁신적인 MLA 아키텍처와 DeepSeekMoESparse 구조는 메모리 사용량과 컴퓨팅 비용을 크게 절감하는 데 기여했습니다.

DeepSeek의 독특한 접근 방식

  • 기초 연구에 집중: 많은 중국 AI 기업들이 응용 개발을 우선시하는 것과 달리, DeepSeek는 모델 아키텍처 연구와 혁신에 전념합니다.
  • '모방' 접근 방식 거부: DeepSeek는 중국이 기존 기술을 따라하고 적용하는 데서 벗어나 글로벌 혁신에 기여해야 한다는 생각을 적극적으로 지지합니다.
  • 장기적인 비전: DeepSeek의 궁극적인 목표는 AGI를 달성하는 것이며, 이는 기초 연구와 장기적인 발전에 대한 그들의 집중을 이끌어냅니다.
  • 오픈 소스 약속: DeepSeek는 즉각적인 상업적 이익보다 AI 생태계 성장을 우선시하여 자사 모델을 오픈 소스로 공개했습니다.
  • 팀과 문화 강조: DeepSeek는 팀의 성장, 축적된 지식, 혁신적인 문화가 경쟁력의 원천이라고 믿습니다.

주요 혁신

  • MLA (Multi-head Latent Attention) 아키텍처: 이 새로운 아키텍처는 기존의 MHA 아키텍처에 비해 메모리 사용량을 크게 줄입니다.
  • DeepSeekMoESparse 구조: 이 구조는 컴퓨팅 비용을 최소화하여 전체 추론 비용 절감에 기여합니다.
  • 데이터 구성 및 인간 유사 모델링: DeepSeek는 데이터 구성 개선과 모델을 더욱 인간처럼 만드는 데에도 집중하고 있습니다.

AI 환경에 대한 DeepSeek의 관점

  • 현상 유지에 대한 도전: DeepSeek는 중국이 '무임승차자'에서 벗어나 글로벌 기술 혁신에 기여해야 한다고 믿습니다.
  • 격차 해소: DeepSeek는 모델 구조 및 훈련 효율성 측면에서 중국과 서구 AI 역량 간의 격차를 인지하고 있으며, 이를 해소하기 위해 적극적으로 노력하고 있습니다.
  • 상업화를 넘어: DeepSeek는 혁신이 상업적 이익뿐만 아니라 호기심과 창의성에 의해 주도된다고 믿습니다.
  • 오픈 소스의 중요성: DeepSeek는 오픈 소스를 상업적 전략이 아닌 협력과 혁신을 촉진하는 문화적 행위로 간주합니다.
  • 독창성의 가치: DeepSeek는 모방보다 독창적인 혁신의 중요성을 강조하며, 글로벌 기술 커뮤니티에 기여하는 것의 장기적인 이점을 강조합니다.

DeepSeek 설립자, Liang Wenfeng

  • 기술 전문성: Liang Wenfeng은 강력한 인프라 엔지니어링 및 모델 연구 능력을 갖춘 희귀한 인물로 묘사됩니다.
  • 실무 중심 접근: 그는 단순한 관리자 역할이 아닌 연구, 코딩, 팀 토론에 적극적으로 참여합니다.
  • 이상주의적 비전: Liang Wenfeng은 이익보다 윤리적 고려 사항을 우선시하고 독창적인 혁신의 중요성을 강조하는 기술 이상주의자입니다.
  • 장기적 영향에 집중: 그는 AI 발전과 사회 전반의 효율성 향상에 기여하는 데 집중합니다.

DeepSeek의 팀과 문화

  • 인재 확보: DeepSeek는 연구에 대한 열정과 강한 호기심을 가진 인재를 채용하는 데 집중하며, 종종 독특한 배경을 가진 후보자를 선택합니다.
  • 자율 조직 팀: DeepSeek는 개인이 자신의 아이디어를 추구하고 다른 사람들과 협력하도록 장려하는 자율 조직 팀 구조를 장려합니다.
  • 유연한 자원 할당: 팀 구성원은 필요에 따라 컴퓨팅 능력 및 인력과 같은 리소스를 자유롭게 할당할 수 있습니다.
  • 열정 강조: DeepSeek는 재정적 인센티브보다 연구에 대한 열정을 우선시하여 어려운 문제를 해결하려는 욕구에 의해 움직이는 개인을 유치합니다.

DeepSeek의 미래 전망

  • 폐쇄 소스 계획 없음: DeepSeek는 단기적인 이익보다 강력한 기술 생태계가 더 중요하다고 믿으며 오픈 소스를 유지하기 위해 노력하고 있습니다.
  • 즉각적인 자금 필요 없음: DeepSeek는 현재 고성능 칩에 대한 접근이 주요 과제이기 때문에 자금을 모색하지 않습니다.
  • 기초 연구에 집중: DeepSeek는 응용 개발보다는 기초 연구와 혁신을 계속 우선시할 것입니다.
  • AGI에 대한 장기적 비전: DeepSeek는 AI의 미래에 대해 낙관적이며 AGI가 그들의 생애 내에 달성될 것이라고 믿습니다.
  • 전문화 강조: DeepSeek는 전문화된 기업이 기초 모델과 서비스를 제공하여 다른 기업들이 이를 기반으로 구축할 수 있는 미래를 구상합니다.