Published on

Microsoft lança o poderoso modelo Phi-4, superando o GPT-4o

Autores
  • avatar
    Nome
    Ajax
    Twitter

O Microsoft Research recentemente lançou seu mais recente modelo de pequeno parâmetro, o Phi-4, que tem chamado muita atenção por seu desempenho excepcional. O Phi-4 possui apenas 14 bilhões de parâmetros, mas seu desempenho em vários benchmarks é surpreendente, superando até mesmo o GPT-4o da OpenAI e outros modelos de código aberto de ponta, como o Qwen 2.5-14B e o Llama-3.3-70B.

Em testes mais específicos, o Phi-4 alcançou uma pontuação excelente de 91,8 na Competição Matemática Americana (AMC), superando muitos modelos conhecidos de código aberto e fechado, incluindo Gemini Pro 1.5 e Claude 3.5 Sonnet. Seu desempenho geral pode até ser comparado ao Llama-3.1 com 405 bilhões de parâmetros.

Este movimento gerou uma forte reação da comunidade, já que alguns usuários já haviam carregado pesos piratas do Phi-4 no Hugging Face. Agora, a Microsoft finalmente lançou oficialmente o Phi-4, utilizando uma licença MIT que permite uso comercial. O endereço de código aberto é phi-4. O Hugging Face também parabenizou o lançamento do Phi-4, mostrando sua influência.

As principais vantagens do Phi-4: dados sintéticos e treinamento refinado

A razão pela qual o Phi-4 pode atingir um desempenho tão excelente com tão poucos parâmetros é o papel fundamental dos dados sintéticos de alta qualidade. Comparados aos dados tradicionais de rastreamento da web, os dados sintéticos podem fornecer materiais de aprendizado mais estruturados e graduais, ajudando o modelo a aprender a lógica e o processo de raciocínio da linguagem de forma mais eficiente.

  • Aprendizagem Estruturada: Os dados sintéticos podem ser apresentados passo a passo de acordo com os passos da resolução, por exemplo, na resolução de problemas matemáticos, o que ajuda o modelo a entender melhor a estrutura do problema e as ideias de resolução.
  • Alinhamento Contextual: Os dados sintéticos podem estar melhor alinhados com o contexto de raciocínio do modelo, mais próximos do formato de saída que o modelo precisa gerar em aplicações práticas, de modo que o modelo se adapte às necessidades de cenários de aplicações reais na fase de pré-treinamento. Por exemplo, reescrever informações factuais em fóruns online em um estilo semelhante à interação de modelos grandes torna essas informações mais naturais e razoáveis nas conversas geradas pelo modelo.

A geração de dados sintéticos do Phi-4 segue os seguintes princípios:

  1. Diversidade
  2. Delicadeza e complexidade
  3. Precisão
  4. Cadeia de raciocínio

Esses princípios garantem a qualidade dos dados sintéticos e abrangem mais de 50 tipos diferentes de conjuntos de dados sintéticos. A Microsoft gerou cerca de 400 bilhões de tokens não ponderados por meio de vários métodos, como processo de prompt de vários estágios, planejamento de sementes, reescrita e aprimoramento e autorrevisão.

Além dos dados sintéticos, o Phi-4 também realizou triagem e filtragem rigorosas de dados orgânicos, coletando dados de vários canais, como conteúdo da web, livros licenciados e repositórios de código. Por meio de um processo de filtragem em duas etapas, dados de sementes com alto valor educacional e profundidade de raciocínio foram extraídos. Esses dados de sementes fornecem uma base para a geração de dados sintéticos e também são usados diretamente para pré-treinamento, enriquecendo ainda mais a base de conhecimento do modelo.

Durante o processo de triagem, a Microsoft utilizou um método de filtragem baseado em pequenos classificadores para selecionar documentos de alta qualidade de dados da web em larga escala e realizou um processamento especializado para dados multilíngues para garantir que o modelo pudesse lidar com várias línguas, incluindo alemão, espanhol, francês, português, italiano, hindi e japonês.

O processo de treinamento do Phi-4

O pré-treinamento do Phi-4 utiliza principalmente dados sintéticos, complementados por uma pequena quantidade de dados orgânicos de alta qualidade. Essa estratégia de mistura de dados permite que o modelo absorva conteúdo rico em conhecimento enquanto aprende habilidades de raciocínio e resolução de problemas.

Na fase de treinamento intermediário, o Phi-4 estendeu o comprimento do contexto de 4096 para 16384 para melhorar a capacidade do modelo de lidar com textos longos. Isso inclui amostras com contexto superior a 8K selecionadas de conjuntos de dados não sintéticos de alta qualidade e novos conjuntos de dados sintéticos criados que atendem aos requisitos de sequência de 4K.

A fase de pós-treinamento é fundamental para a otimização do Phi-4. A Microsoft utilizou as tecnologias de ajuste fino supervisionado (SFT) e otimização de preferência direta (DPO).

  • Fase SFT: O modelo pré-treinado foi ajustado utilizando cerca de 8 bilhões de tokens gerados a partir de dados de alta qualidade de diferentes campos, com uma taxa de aprendizado de 10-6, e dados multilíngues de 40 idiomas foram adicionados. Todos os dados foram formatados em chatml.
  • Tecnologia DPO: A saída do modelo é ajustada gerando dados de preferência para torná-la mais consistente com as preferências humanas. A Microsoft também introduziu a tecnologia de pesquisa de tokens-chave (PTS) para gerar pares DPO. Essa tecnologia pode identificar tokens-chave que têm um impacto significativo na precisão da resposta do modelo e criar dados de preferência para esses tokens, melhorando assim o desempenho do modelo em tarefas de raciocínio.

Avaliação de desempenho do Phi-4

Para avaliar o desempenho do Phi-4, a Microsoft realizou testes em vários benchmarks. Em termos de benchmarks acadêmicos, como MMLU, GPQA, MATH e HumanEval, o Phi-4 teve um desempenho excelente.

No teste MMLU, o Phi-4 alcançou uma pontuação alta de 84,8. Nos testes GPQA e MATH, ele até superou o GPT-4o, demonstrando fortes habilidades de raciocínio em tarefas relacionadas a competições de matemática. Em comparação com outros modelos de tamanho semelhante e maior, o Phi-4 superou o modelo de código aberto Qwen-2.5-14B-Instruct em 9 dos 12 benchmarks.