Published on

Microsoft lanza Phi-4, un potente modelo que supera a GPT-4o y es de código abierto

Autores
  • avatar
    Nombre
    Ajax
    Twitter

[article]

Microsoft ha presentado recientemente su modelo de lenguaje Phi-4, un avance significativo en el campo de la inteligencia artificial. Este modelo, con tan solo 14 mil millones de parámetros, ha demostrado un rendimiento excepcional en diversas pruebas, superando incluso al renombrado GPT-4o de OpenAI, así como a otros modelos de código abierto de primera línea como Qwen 2.5-14B y Llama-3.3-70B. La comunidad tecnológica ha recibido este anuncio con gran entusiasmo, especialmente por su disponibilidad bajo una licencia MIT que permite su uso comercial.

El Desempeño Sorprendente de Phi-4

Phi-4 ha logrado resultados impresionantes en diversas pruebas comparativas. En el concurso de matemáticas estadounidense AMC, Phi-4 obtuvo una puntuación de 91.8, superando a modelos de renombre como Gemini Pro 1.5 y Claude 3.5 Sonnet. Este rendimiento destaca la capacidad de Phi-4 para el razonamiento y la resolución de problemas matemáticos. Su rendimiento global se equipara al del modelo Llama-3.1, que cuenta con 405 mil millones de parámetros, lo que resalta la eficiencia de Phi-4 en términos de tamaño y rendimiento.

La liberación oficial de Phi-4 ha sido bien recibida por la comunidad, especialmente después de que se conocieran versiones no autorizadas de sus pesos en Hugging Face. La decisión de Microsoft de ofrecer Phi-4 bajo una licencia MIT ha generado gran interés, debido a la posibilidad de utilizar este modelo en proyectos comerciales. La felicitación oficial de Hugging Face por este lanzamiento subraya la relevancia y el impacto de Phi-4 en la comunidad de IA.

La Clave del Éxito: Datos Sintéticos y Entrenamiento Detallado

El éxito de Phi-4 se atribuye, en gran medida, al uso de datos sintéticos de alta calidad y a un proceso de entrenamiento meticuloso. A diferencia de los datos obtenidos mediante el rastreo web tradicional, los datos sintéticos ofrecen un material de aprendizaje más estructurado y gradual. Esto permite que el modelo aprenda la lógica del lenguaje y los procesos de razonamiento de manera más eficiente.

Aprendizaje Estructurado

  • Los datos sintéticos se presentan paso a paso, lo que facilita la comprensión de la estructura de los problemas y las estrategias de resolución, especialmente en el ámbito de las matemáticas.
  • Esta metodología de aprendizaje permite al modelo asimilar conceptos complejos de manera más efectiva.

Alineación Contextual

  • Los datos sintéticos se alinean mejor con el contexto de razonamiento del modelo.
  • Se asemejan al formato de salida que el modelo necesita generar en aplicaciones reales, lo que permite una adaptación eficiente desde la fase de pre-entrenamiento.
  • La reformulación de información de foros en un estilo de interacción de modelos grandes hace que las conversaciones generadas sean más naturales y coherentes.

Principios de Generación de Datos Sintéticos

La generación de datos sintéticos para Phi-4 se basa en cuatro principios fundamentales:

  1. Diversidad: Se asegura la variedad en los datos para que el modelo aprenda diferentes aspectos del lenguaje y el razonamiento.
  2. Complejidad y Sutileza: Los datos incluyen situaciones complejas y matices lingüísticos que desafían al modelo.
  3. Precisión: La exactitud de los datos es crucial para garantizar la fiabilidad del modelo.
  4. Cadena de Razonamiento: Los datos se diseñan para promover el desarrollo de habilidades de razonamiento lógico.

Siguiendo estos principios, Microsoft ha creado más de 50 tipos de conjuntos de datos sintéticos. A través de un proceso que incluye múltiples etapas de indicaciones, planificación de semillas, reformulación, mejora y auto-revisión, se generaron aproximadamente 400 mil millones de tokens no ponderados.

Datos Orgánicos y Filtrado Riguroso

Además de los datos sintéticos, Phi-4 también se beneficia de datos orgánicos cuidadosamente seleccionados. Estos datos se obtuvieron de diversas fuentes, incluyendo contenido web, libros autorizados y repositorios de código. A través de un proceso de filtrado en dos etapas, se identificaron datos de alto valor educativo y de profundidad de razonamiento. Estos datos, conocidos como datos semilla, sirvieron de base para la generación de datos sintéticos y se utilizaron directamente en el pre-entrenamiento del modelo.

El proceso de filtrado incluyó el uso de pequeños clasificadores para seleccionar documentos de alta calidad de grandes conjuntos de datos web. Se prestó especial atención al procesamiento de datos multilingües, asegurando que el modelo pudiera manejar idiomas como el alemán, español, francés, portugués, italiano, hindi y japonés.

El Proceso de Entrenamiento de Phi-4

El pre-entrenamiento de Phi-4 se realizó principalmente con datos sintéticos, complementados con una pequeña cantidad de datos orgánicos de alta calidad. Esta combinación estratégica permitió que el modelo desarrollara habilidades de razonamiento y resolución de problemas, al tiempo que absorbía un amplio abanico de conocimientos.

Expansión de la Longitud del Contexto

En la fase de entrenamiento intermedio, la longitud del contexto de Phi-4 se incrementó de 4096 a 16384. Esto mejoró la capacidad del modelo para procesar textos más extensos. Este aumento incluyó muestras de más de 8K de contexto seleccionadas de conjuntos de datos no sintéticos de alta calidad y nuevos conjuntos de datos sintéticos diseñados para cumplir con los requisitos de secuencia de 4K.

Optimización Post-Entrenamiento

La fase posterior al entrenamiento fue crucial para la optimización de Phi-4. Se emplearon técnicas de ajuste supervisado (SFT) y optimización directa de preferencias (DPO).

Ajuste Supervisado (SFT)

  • Se utilizó un conjunto de datos de aproximadamente 8 mil millones de tokens generados a partir de datos de alta calidad de diversos ámbitos.
  • Este ajuste fino se realizó con una tasa de aprendizaje de 10-6.
  • Se incorporaron datos multilingües en 40 idiomas diferentes, todos en formato chatml.

Optimización Directa de Preferencias (DPO)

  • Se generaron datos de preferencia para ajustar las salidas del modelo y hacerlas más acordes con las preferencias humanas.
  • Se introdujo la técnica de búsqueda de tokens clave (PTS) para generar pares DPO.
  • Esta técnica identifica los tokens críticos que influyen en la precisión de las respuestas del modelo.
  • Se crearon datos de preferencia específicos para estos tokens, mejorando el rendimiento del modelo en tareas de razonamiento.

Evaluación del Rendimiento de Phi-4

Para evaluar el rendimiento de Phi-4, se realizaron pruebas en múltiples benchmarks. En benchmarks académicos como MMLU, GPQA, MATH y HumanEval, Phi-4 demostró un rendimiento excepcional.

  • En la prueba MMLU, Phi-4 obtuvo una puntuación de 84.8.
  • En las pruebas GPQA y MATH, Phi-4 superó a GPT-4o, demostrando su capacidad para el razonamiento matemático y la resolución de problemas.
  • En comparación con otros modelos de tamaño similar y mayor, Phi-4 superó al modelo de código abierto Qwen-2.5-14B-Instruct en 9 de 12 benchmarks.