Published on

DeepSeek: Uma História de Idealismo Tecnológico Chinês e Inovação em IA

Autores
  • avatar
    Nome
    Ajax
    Twitter

DeepSeek: Uma História de Idealismo Tecnológico Chinês

A DeepSeek, uma startup chinesa de inteligência artificial, está a causar impacto ao concentrar-se na investigação fundamental e na inovação na arquitetura de modelos, em vez de apenas no desenvolvimento de aplicações. Eles estão a desafiar a noção de que a China só é boa em inovação de aplicações, pretendendo ser um contribuinte para os avanços tecnológicos globais. A abordagem da DeepSeek é impulsionada por uma visão de longo prazo de alcançar a Inteligência Artificial Geral (AGI), priorizando a investigação sobre a comercialização imediata.

Antecedentes

A DeepSeek surgiu da empresa de negociação quantitativa, High-Flyer, e inicialmente ganhou atenção pela sua infraestrutura de chips de IA em grande escala. A empresa recentemente fez manchetes ao lançar o DeepSeek V2, um modelo de código aberto com custos de inferência significativamente mais baixos, desencadeando uma guerra de preços entre as empresas chinesas de IA. A inovadora arquitetura MLA da DeepSeek e a estrutura DeepSeekMoESparse levaram a reduções significativas no uso de memória e nos custos computacionais.

A Abordagem Única da DeepSeek

  • Foco na Investigação Fundamental: Ao contrário de muitas empresas chinesas de IA que priorizam o desenvolvimento de aplicações, a DeepSeek dedica-se à investigação e inovação na arquitetura de modelos.
  • Rejeição da Abordagem "Imitadora": A DeepSeek está a desafiar ativamente a ideia de que a China deve apenas seguir e aplicar as tecnologias existentes, pretendendo, em vez disso, contribuir para a inovação global.
  • Visão de Longo Prazo: O objetivo final da DeepSeek é alcançar a AGI, o que impulsiona o seu foco na investigação fundamental e no desenvolvimento a longo prazo.
  • Compromisso com o Código Aberto: A DeepSeek optou por lançar os seus modelos como código aberto, priorizando o crescimento do ecossistema de IA em detrimento dos ganhos comerciais imediatos.
  • Ênfase na Equipa e Cultura: A DeepSeek acredita que a sua vantagem competitiva reside no crescimento da sua equipa, no conhecimento acumulado e na cultura inovadora.

Principais Inovações

  • Arquitetura MLA (Multi-head Latent Attention): Esta nova arquitetura reduz significativamente o uso de memória em comparação com as arquiteturas MHA tradicionais.
  • Estrutura DeepSeekMoESparse: Esta estrutura minimiza os custos computacionais, contribuindo para a redução geral dos custos de inferência.
  • Construção de Dados e Modelação Semelhante à Humana: A DeepSeek também está a concentrar-se na melhoria da construção de dados e na criação de modelos mais semelhantes aos humanos.

A Perspetiva da DeepSeek sobre o Panorama da IA

  • Desafiar o Status Quo: A DeepSeek acredita que a China precisa de ir além de ser um "aproveitador" e tornar-se um contribuinte para a inovação tecnológica global.
  • Colmatar a Lacuna: A DeepSeek reconhece a lacuna entre as capacidades de IA chinesas e ocidentais, particularmente na estrutura de modelos e na eficiência de treino, e está a trabalhar ativamente para a colmatar.
  • Para Além da Comercialização: A DeepSeek acredita que a inovação não é impulsionada apenas por interesses comerciais, mas também pela curiosidade e criatividade.
  • A Importância do Código Aberto: A DeepSeek vê o código aberto como um ato cultural que promove a colaboração e a inovação, em vez de uma estratégia comercial.
  • O Valor da Originalidade: A DeepSeek enfatiza a importância da inovação original em detrimento da imitação, destacando os benefícios a longo prazo de contribuir para a comunidade tecnológica global.

O Fundador da DeepSeek, Liang Wenfeng

  • Especialização Técnica: Liang Wenfeng é descrito como um indivíduo raro com fortes capacidades de engenharia de infraestrutura e investigação de modelos.
  • Abordagem Prática: Ele está ativamente envolvido na investigação, codificação e discussões em equipa, em vez de apenas atuar como gestor.
  • Visão Idealista: Liang Wenfeng é um idealista da tecnologia que prioriza considerações éticas em detrimento do lucro e enfatiza a importância da inovação original.
  • Foco no Impacto a Longo Prazo: Ele está focado em contribuir para o avanço da IA e para a eficiência geral da sociedade.

A Equipa e Cultura da DeepSeek

  • Aquisição de Talentos: A DeepSeek concentra-se na contratação de indivíduos com paixão pela investigação e um forte sentido de curiosidade, selecionando muitas vezes candidatos com experiências únicas.
  • Equipas Auto-Organizadas: A DeepSeek promove uma estrutura de equipas auto-organizadas onde os indivíduos são encorajados a prosseguir as suas ideias e a colaborar com outros.
  • Atribuição Flexível de Recursos: Os membros da equipa têm a liberdade de atribuir recursos, como poder computacional e pessoal, conforme necessário.
  • Ênfase na Paixão: A DeepSeek prioriza a paixão pela investigação em detrimento dos incentivos financeiros, atraindo indivíduos que são impulsionados pelo desejo de resolver problemas desafiantes.

Perspetivas Futuras da DeepSeek

  • Sem Planos para Código Fechado: A DeepSeek está comprometida em permanecer de código aberto, acreditando que um ecossistema tecnológico forte é mais importante do que ganhos a curto prazo.
  • Sem Necessidades Imediatas de Financiamento: A DeepSeek não está atualmente à procura de financiamento, pois o seu principal desafio é o acesso a chips de alta qualidade.
  • Foco na Investigação Fundamental: A DeepSeek continuará a priorizar a investigação fundamental e a inovação, em vez do desenvolvimento de aplicações.
  • Visão de Longo Prazo para a AGI: A DeepSeek está otimista quanto ao futuro da IA e acredita que a AGI será alcançada durante a sua vida.
  • Ênfase na Especialização: A DeepSeek prevê um futuro onde empresas especializadas fornecem modelos e serviços fundamentais, permitindo que outros construam sobre eles.