- Published on
Microsoft rilascia il potente modello Phi-4, superando GPT-4o
Il Rivoluzionario Modello Phi-4 di Microsoft
Microsoft Research ha recentemente reso open-source il suo ultimo modello di piccole dimensioni, Phi-4, che ha suscitato grande interesse per le sue straordinarie prestazioni. Nonostante i soli 14 miliardi di parametri, Phi-4 ha ottenuto risultati sorprendenti in numerosi benchmark, superando persino GPT-4o di OpenAI e altri modelli open-source di punta come Qwen 2.5-14B e Llama-3.3-70B.
Performance Eccezionali
In test più specifici, Phi-4 ha ottenuto un punteggio eccellente di 91.8 all'American Mathematics Competition (AMC), superando molti modelli noti, sia open-source che proprietari, come Gemini Pro 1.5 e Claude 3.5 Sonnet. Le sue prestazioni complessive sono paragonabili a quelle di Llama-3.1, che vanta ben 405 miliardi di parametri.
L'annuncio ha generato una forte reazione nella comunità, soprattutto dopo che alcuni utenti avevano precedentemente caricato versioni pirata dei pesi di Phi-4 su Hugging Face. Ora, Microsoft ha finalmente reso Phi-4 ufficialmente open-source, con licenza MIT, che ne consente l'uso commerciale. L'indirizzo open-source è: phi-4 (testo). Anche Hugging Face ha espresso congratulazioni per il rilascio open-source di Phi-4, evidenziandone l'impatto.
I Vantaggi Chiave di Phi-4: Dati Sintetici e Addestramento Raffinato
La capacità di Phi-4 di raggiungere prestazioni così elevate con un numero relativamente piccolo di parametri è dovuta in gran parte all'uso di dati sintetici di alta qualità. A differenza dei dati tradizionalmente ottenuti tramite web scraping, i dati sintetici offrono materiali di apprendimento più strutturati e graduali, aiutando il modello a imparare la logica e il ragionamento linguistico in modo più efficiente.
Apprendimento Strutturato
I dati sintetici possono essere presentati seguendo passaggi di risoluzione dei problemi, come nei problemi di matematica, aiutando il modello a comprendere meglio la struttura e le strategie di risoluzione.
Allineamento Contestuale
I dati sintetici sono meglio allineati al contesto di ragionamento del modello, avvicinandosi ai formati di output che il modello deve generare in applicazioni reali. Questo consente al modello di adattarsi alle esigenze di applicazioni pratiche già nella fase di pre-addestramento. Ad esempio, le informazioni fattuali dai forum online vengono riscritte in uno stile simile all'interazione con un modello di grandi dimensioni, rendendo queste informazioni più naturali e appropriate nelle conversazioni generate dal modello.
Principi di Generazione dei Dati Sintetici di Phi-4
La generazione di dati sintetici per Phi-4 segue questi principi:
- Diversità: Garantire un'ampia gamma di esempi per coprire diverse situazioni.
- Finezza e Complessità: Creare dati che stimolino il ragionamento e la comprensione profonda.
- Accuratezza: Assicurarsi che i dati siano corretti e privi di errori.
- Catena di Ragionamento: Includere esempi che mostrino i passaggi logici necessari per risolvere un problema.
Questi principi garantiscono la qualità dei dati sintetici, che coprono oltre 50 tipi diversi di set di dati. Microsoft ha generato circa 400 miliardi di token non ponderati utilizzando processi di prompt multi-fase, pianificazione di seed, riscrittura e potenziamento, e auto-revisione.
Dati Organici e Filtraggio
Oltre ai dati sintetici, Phi-4 utilizza anche dati organici rigorosamente selezionati e filtrati. I dati sono stati raccolti da diverse fonti come contenuti web, libri autorizzati e librerie di codice. Un processo di filtraggio in due fasi ha permesso di estrarre dati seed di alto valore educativo e profondità di ragionamento. Questi dati seed hanno fornito la base per la generazione dei dati sintetici e sono stati utilizzati direttamente per il pre-addestramento, arricchendo ulteriormente la base di conoscenza del modello.
Nel processo di selezione, Microsoft ha utilizzato un metodo di filtraggio basato su piccoli classificatori per scegliere documenti di alta qualità da grandi quantità di dati web. È stato eseguito un trattamento specifico per i dati multilingue, assicurando che il modello potesse gestire diverse lingue, tra cui tedesco, spagnolo, francese, portoghese, italiano, hindi e giapponese.
Il Processo di Addestramento di Phi-4
Il pre-addestramento di Phi-4 utilizza principalmente dati sintetici, integrati da una piccola quantità di dati organici di alta qualità. Questa strategia di combinazione dei dati consente al modello di apprendere le capacità di ragionamento e problem-solving, assorbendo al contempo una vasta gamma di conoscenze.
Espansione del Contesto
Nella fase di addestramento intermedio, la lunghezza del contesto di Phi-4 è stata estesa da 4096 a 16384, migliorando la capacità del modello di gestire testi lunghi. Questo include campioni più lunghi di 8K contesti, selezionati da set di dati non sintetici di alta qualità, e nuovi set di dati sintetici creati per soddisfare i requisiti di sequenza 4K.
Ottimizzazione Post-Addestramento
La fase post-addestramento è cruciale per l'ottimizzazione di Phi-4. Microsoft ha utilizzato tecniche di fine-tuning supervisionato (SFT) e ottimizzazione diretta delle preferenze (DPO).
- Fase SFT: Il modello pre-addestrato è stato fine-tuned utilizzando circa 8 miliardi di token generati da dati di alta qualità provenienti da diversi settori, con un tasso di apprendimento di 10^-6. Sono stati aggiunti dati multilingue in 40 lingue, tutti in formato chatml.
- Tecnica DPO: La tecnica DPO regola l'output del modello generando dati di preferenza per allinearlo meglio alle preferenze umane. Microsoft ha anche introdotto la tecnica di ricerca di token chiave (PTS) per generare coppie DPO. Questa tecnica identifica i token chiave che hanno un impatto significativo sulla correttezza delle risposte del modello e crea dati di preferenza per questi token, migliorando così le prestazioni del modello nelle attività di ragionamento.
Valutazione delle Prestazioni di Phi-4
Per valutare le prestazioni di Phi-4, Microsoft ha condotto test su numerosi benchmark. Phi-4 ha mostrato ottimi risultati nei benchmark accademici, come MMLU, GPQA, MATH e HumanEval. Nel test MMLU, Phi-4 ha ottenuto un punteggio elevato di 84.8. Nei test GPQA e MATH, ha superato persino GPT-4o, dimostrando forti capacità di ragionamento in compiti relativi a competizioni matematiche. In confronto con altri modelli di dimensioni simili e maggiori, Phi-4 ha superato il modello open-source Qwen-2.5-14B-Instruct in 9 dei 12 benchmark.