- Published on
A Jornada da Cohere: Uma Análise Profunda da Startup de IA
A Ascensão dos Modelos de Linguagem Grandes e o Posicionamento Único da Cohere
O artigo começa reconhecendo o domínio da OpenAI e seu ChatGPT, destacando a intensa competição no campo dos modelos de linguagem grandes. Nesse cenário, a Cohere se diferenciou ao focar em clientes empresariais, oferecendo soluções de IA personalizáveis e seguras. A empresa foi co-fundada por Aidan Gomez, co-autor do artigo inovador "Attention is All You Need", juntamente com Ivan Zhang e Nick Frosst. Além disso, a Cohere garantiu um financiamento significativo, incluindo uma rodada Série C de 270 milhões de dólares, e é apoiada por grandes empresas de tecnologia e investidores.
A Gênese de uma Ideia: O Trabalho Inicial de Aidan Gomez e o Modelo Transformer
A participação de Aidan no artigo "Attention is All You Need" durante seu estágio no Google Brain foi um momento crucial. Ele trabalhou com Lukasz Kaiser em uma plataforma de software para treinar grandes redes neurais. Em seguida, colaborou com Noam Shazeer na exploração de alternativas às RNNs. Essa colaboração levou à criação do modelo Transformer. O modelo Transformer revolucionou o campo da IA, levando ao desenvolvimento de modelos como BERT e GPT. Aidan percebeu o potencial do modelo Transformer ao vê-lo gerar uma história coerente a partir de uma única palavra.
Da Pesquisa ao Empreendedorismo: A Formação da FOR.ai e a Mudança para Modelos de Linguagem Grandes
Ivan Zhang, também ex-aluno da Universidade de Toronto, é descrito como um criador prático que prefere aprender fazendo. Aidan e Ivan inicialmente formaram a FOR.ai, um grupo de pesquisa em IA, antes de se aventurarem em uma startup mais formal. A ideia inicial deles era criar uma plataforma para compactar modelos de IA, mas eles mudaram devido à falta de demanda do mercado. O lançamento do GPT-2 e a crescente importância do tamanho do modelo levaram a Cohere a se concentrar em modelos de linguagem grandes. O primeiro produto da Cohere foi uma ferramenta de preenchimento automático de texto, que era um modelo ToC (business-to-consumer).
A Mudança para o Modelo ToB e a Missão da Cohere
Eles perceberam os desafios dos produtos para o consumidor e mudaram para um modelo ToB (business-to-business), oferecendo uma plataforma API para clientes empresariais. A missão da Cohere é tornar a IA acessível a todas as empresas, removendo barreiras à adoção. A empresa oferece modelos personalizáveis, opções de implantação multi-nuvem e on-premise, e forte privacidade de dados.
Talento e Cultura: A Abordagem Única de Contratação da Cohere
A Cohere busca indivíduos com paixão por IA e desejo de causar impacto, independentemente de sua formação. Eles valorizam a experiência prática e a aplicação prática acima de conquistas puramente acadêmicas. A Cohere promove uma cultura de experimentação e inovação, focando tanto na pesquisa quanto na engenharia.
O Futuro da IA: Perspectivas e Desafios
Aidan acredita que o mercado de IA não será monopolizado e que diferentes empresas encontrarão seus próprios nichos. Ele expressa preocupação com o potencial da IA para manipular mídias sociais e o discurso público. Ivan destaca os desafios de avaliar modelos de IA e garantir a privacidade dos dados. Ambos veem grande potencial na IA incorporada, que combina IA com robótica e sistemas físicos. Aidan especula sobre a possibilidade de a IA aprender além do conhecimento humano e criar novos conhecimentos.
Conceitos-Chave Explicados
- Modelo Transformer: Uma arquitetura de rede neural que usa mecanismos de atenção para processar dados sequenciais, como texto.
- RNN (Rede Neural Recorrente): Um tipo de rede neural que processa dados sequenciais mantendo um estado oculto que captura informações de entradas anteriores.
- ToC (Business-to-Consumer): Um modelo de negócios onde produtos ou serviços são vendidos diretamente para consumidores individuais.
- ToB (Business-to-Business): Um modelo de negócios onde produtos ou serviços são vendidos para outras empresas.
- API (Application Programming Interface): Um conjunto de regras e especificações que permite que diferentes aplicativos de software se comuniquem entre si.
- IA Incorporada: A integração da IA com sistemas físicos, como robôs, para permitir que eles interajam com o mundo real.
- Multi-nuvem: O uso de vários serviços de computação em nuvem de diferentes provedores.
- On-premise: A implantação de software e infraestrutura nos próprios servidores de uma empresa.
- Ajuste fino: O processo de adaptação de um modelo de IA pré-treinado a uma tarefa ou conjunto de dados específico.
- Incorporação de palavras: Uma técnica para representar palavras como vetores numéricos, capturando seu significado semântico.