- Published on
Kimi k1.5: Modelo Multimodal da Moonshot AI Desafia OpenAI
A Ascensão do Kimi k1.5: Um Novo Capítulo na Inteligência Artificial
No cenário da inteligência artificial, um avanço notável foi alcançado com a apresentação do modelo multimodal Kimi k1.5 pela Moonshot AI. Este modelo inovador demonstrou níveis de desempenho que rivalizam com a versão completa o1 da OpenAI, um feito que anteriormente não havia sido alcançado por nenhuma outra entidade fora da OpenAI. Este desenvolvimento marca um novo capítulo na busca por capacidades avançadas de IA, mostrando o potencial da inovação doméstica diante da competição global.
O modelo Kimi k1.5 se destaca por suas habilidades abrangentes em vários domínios, incluindo matemática, codificação e raciocínio multimodal. Seu desempenho nessas áreas não é apenas comparável à versão completa o1, mas, em certos aspectos, a excede. Notavelmente, a variante kimi-k1.5-short surge como um modelo de ponta (SOTA) de cadeia curta de pensamento (CoT), superando o GPT-4o e o Claude 3.5 Sonnet em impressionantes 550%. Este avanço significativo ressalta as capacidades excepcionais do modelo e seu potencial para redefinir os benchmarks para o desempenho da IA.
Transparência e Colaboração: O Diferencial da Moonshot AI
A conquista da Moonshot AI não é apenas um marco técnico, mas um testemunho da transparência e do espírito colaborativo que muitas vezes faltam no cenário competitivo da IA. Ao publicar seu relatório técnico, a Moonshot AI convida a comunidade tecnológica mais ampla a analisar, aprender e contribuir para seu trabalho. Essa atitude ressalta sua crença de que a jornada em direção à inteligência artificial geral (AGI) é um esforço coletivo, exigindo a participação de diversos talentos e perspectivas.
Desempenho SOTA em Diversas Áreas
Os testes abrangentes do modelo Kimi k1.5 revelam seu status SOTA em várias áreas-chave. No modo long-CoT, ele corresponde ao desempenho do lançamento oficial do OpenAI o1 em matemática, codificação e raciocínio multimodal. Suas pontuações em benchmarks como AIME (77,5), MATH 500 (96,2), Codeforces (94º percentil) e MathVista (74,9) são indicativas de sua proeza. Esta conquista marca a primeira instância de uma empresa fora da OpenAI atingindo o nível de desempenho completo o1.
Além disso, no modo short-CoT, o modelo Kimi k1.5 demonstrou desempenho SOTA global, superando significativamente o GPT-4o e o Claude 3.5 Sonnet. Suas pontuações em AIME (60,8), MATH500 (94,6) e LiveCodeBench (47,3) são evidências de suas capacidades excepcionais em raciocínio de cadeia curta de pensamento. Esses resultados não são apenas números; eles representam uma mudança de paradigma nas capacidades dos modelos de IA multimodal.
Uma Abordagem Inovadora para o Desenvolvimento de IA
O desenvolvimento do modelo Kimi k1.5 não foi um golpe de sorte, mas o resultado de uma abordagem deliberada e inovadora. A equipe da Moonshot AI reconheceu que simplesmente aumentar os parâmetros durante o pré-treinamento não produziria os resultados desejados. Eles se voltaram para o pós-treinamento baseado em aprendizado por reforço como uma área-chave para melhoria. Essa abordagem permite que o modelo expanda seus dados de treinamento por meio da exploração baseada em recompensas, escalando assim suas capacidades computacionais.
O relatório técnico detalha a exploração da equipe de técnicas de treinamento de aprendizado por reforço (RL), receitas de dados multimodais e otimização de infraestrutura. Sua estrutura de RL, notavelmente, é direta e eficaz, evitando técnicas mais complexas como a busca em árvore de Monte Carlo e funções de valor. Eles também introduziram a técnica long2short, que aproveita os modelos Long-CoT para aprimorar o desempenho dos modelos Short-CoT.
Elementos Chave da Estrutura de Aprendizado por Reforço
Dois elementos críticos sustentam a estrutura de RL da equipe: escalonamento de contexto longo e otimização de política aprimorada. Ao escalar a janela de contexto para 128k, eles observaram uma melhoria contínua no desempenho do modelo. Eles também usam o rollout parcial para melhorar a eficiência do treinamento, reutilizando trajetórias antigas para amostrar novas. A equipe também derivou uma fórmula de aprendizado por reforço com long-CoT, empregando uma variante de descida de espelho online para otimização robusta de política.
A Técnica Long2Short: Aprimorando Modelos de Cadeia Curta
A técnica long2short envolve vários métodos, incluindo fusão de modelos, amostragem de rejeição mais curta, DPO e long2short RL. A fusão de modelos combina modelos long-CoT e short-CoT para obter melhor eficiência de token. A amostragem de rejeição mais curta seleciona a resposta correta mais curta para ajuste fino. O DPO usa pares de respostas curtas e longas para dados de treinamento. O Long2short RL envolve uma fase de treinamento separada com uma penalidade de comprimento.
O Futuro da Moonshot AI e o Impacto do Kimi k1.5
Olhando para o futuro, a Moonshot AI está comprometida em acelerar a atualização de seus modelos de aprendizado por reforço da série k. Eles pretendem introduzir mais modalidades, capacidades mais amplas e capacidades gerais aprimoradas. Esta visão ambiciosa os posiciona como um ator-chave no cenário global de IA, pronto para desafiar o domínio de players estabelecidos como a OpenAI.
O modelo Kimi k1.5 é mais do que apenas uma conquista tecnológica; é um símbolo do potencial da inovação doméstica no setor de IA. Com seu desempenho excepcional e o compartilhamento aberto de seus detalhes de treinamento, o Kimi k1.5 estabelece um novo padrão para o desenvolvimento de IA em todo o mundo. A expectativa para seu lançamento é alta, e seu impacto deve ser profundo.