Published on

Microsoft's Krachtige Phi-4 Model Overstijgt GPT-4o: Open Source en Commercieel Gebruik

Auteurs
  • avatar
    Naam
    Ajax
    Twitter

Microsoft's Krachtige Phi-4 Model: Een Doorbraak in Kleine Taalmodellen

Microsoft Research heeft onlangs zijn nieuwste kleine parameter model, Phi-4, open source gemaakt. Dit model heeft door zijn uitstekende prestaties veel aandacht getrokken. Met slechts 14 miljard parameters presteert Phi-4 verrassend goed in verschillende benchmarktests, en overtreft zelfs OpenAI's GPT-4o en andere top open-source modellen zoals Qwen 2.5-14B en Llama-3.3-70B.

Uitzonderlijke Prestaties in Tests

In meer specifieke tests behaalde Phi-4 een uitstekende score van 91,8 in de American Mathematics Competition (AMC), waarmee het veel bekende open- en gesloten-source modellen overtrof, waaronder Gemini Pro 1.5 en Claude 3.5 Sonnet. De algemene prestaties van Phi-4 zijn zelfs vergelijkbaar met die van Llama-3.1, dat 405 miljard parameters heeft.

Open Source en Commercieel Gebruik

Deze stap heeft geleid tot een sterke reactie van de community, omdat eerder al door gebruikers illegale Phi-4 gewichten waren geüpload naar Hugging Face. Nu heeft Microsoft Phi-4 eindelijk officieel open source gemaakt onder een MIT-licentie, waardoor commercieel gebruik is toegestaan. De open source locatie is te vinden op: phi-4. Hugging Face heeft ook officieel zijn felicitaties uitgesproken voor de open-sourcing van Phi-4, wat het grote effect van dit model onderstreept.

De Belangrijkste Voordelen van Phi-4: Synthetische Data en Verfijnde Training

De reden dat Phi-4 zulke uitstekende resultaten kan behalen met zo'n klein aantal parameters, is te danken aan de hoge kwaliteit van de synthetische data die is gebruikt. In vergelijking met traditionele web-scraping data, biedt synthetische data een meer gestructureerd en stapsgewijs leermateriaal, waardoor het model efficiënter de logica en het redeneervermogen van taal leert.

Gestructureerd Leren

Synthetische data kan stapsgewijs worden gepresenteerd, bijvoorbeeld in het oplossen van wiskundige problemen. Dit helpt het model om de structuur van het probleem en de oplossingsmethode beter te begrijpen.

Contextuele Afstemming

Synthetische data is beter afgestemd op de redeneercontext van het model en komt dichter bij het uitvoerformaat dat het model in de praktijk moet genereren. Hierdoor kan het model zich al in de pre-training fase aanpassen aan de eisen van echte toepassingen. Bijvoorbeeld, het herschrijven van feitelijke informatie van online forums naar een stijl die lijkt op die van grote modelinteracties, waardoor deze informatie natuurlijker en redelijker overkomt in door het model gegenereerde dialogen.

Principes van Synthetische Data Generatie

De synthetische data van Phi-4 is gegenereerd volgens de volgende principes:

  • Diversiteit: Zorgen voor een breed scala aan verschillende soorten data.
  • Verfijning en Complexiteit: Data moet zowel gedetailleerd als complex zijn.
  • Nauwkeurigheid: Data moet feitelijk correct zijn.
  • Redeneerketen: Data moet de redeneerketen volgen.

Deze principes zorgen voor de kwaliteit van de synthetische data, die meer dan 50 verschillende soorten synthetische datasets omvat. Microsoft heeft ongeveer 400 miljard ongewogen tokens gegenereerd door middel van verschillende methoden, waaronder meerfasige promptprocessen, seed curation, herschrijven en verbeteren, en zelfherziening.

Selectie en Filtering van Organische Data

Naast synthetische data heeft Phi-4 ook een strenge selectie en filtering van organische data ondergaan. Data is verzameld uit meerdere bronnen, waaronder webcontent, gelicentieerde boeken en codebibliotheken. Door een twee-fasen filterproces is data met een hoge educatieve waarde en redeneerdiepte geselecteerd. Deze data dient als basis voor de generatie van synthetische data en wordt ook direct gebruikt voor pre-training, wat de kennisbasis van het model verder verrijkt.

Filtering op basis van Kleine Classificatoren

Tijdens het selectieproces heeft Microsoft een filtermethode gebruikt op basis van kleine classificatoren om hoogwaardige documenten uit grootschalige webdata te selecteren. Er is ook speciale aandacht besteed aan meertalige data om ervoor te zorgen dat het model verschillende talen kan verwerken, waaronder Duits, Spaans, Frans, Portugees, Italiaans, Hindi en Japans.

Het Trainingsproces van Phi-4

De pre-training van Phi-4 maakt voornamelijk gebruik van synthetische data, aangevuld met een kleine hoeveelheid hoogwaardige organische data. Deze datamix stelt het model in staat om redeneer- en probleemoplossende vaardigheden te leren, terwijl het ook een rijke kennisbasis opbouwt.

Uitbreiding van de Contextlengte

In de middenfase van de training heeft Phi-4 de contextlengte uitgebreid van 4096 naar 16384 om de verwerkingscapaciteit van lange teksten te verbeteren. Dit omvatte het selecteren van samples met een context van meer dan 8K uit hoogwaardige niet-synthetische datasets, evenals het maken van nieuwe synthetische datasets die aan de 4K sequentievereisten voldoen.

Supervised Fine-Tuning (SFT) en Direct Preference Optimization (DPO)

De post-training fase is cruciaal voor de optimalisatie van Phi-4. Microsoft gebruikte hier de supervised fine-tuning (SFT) en direct preference optimization (DPO) technieken.

  • SFT-fase: De pre-trained model is verfijnd met ongeveer 8 miljard tokens van hoogwaardige data uit verschillende domeinen, met een leer snelheid van 10-6. Er is ook meertalige data in 40 talen toegevoegd, allemaal in chatml-formaat.
  • DPO-techniek: Door het genereren van voorkeursdata wordt de output van het model aangepast zodat deze beter aansluit bij menselijke voorkeuren. Microsoft introduceerde ook de key token search (PTS) techniek om DPO-paren te genereren. Deze techniek kan belangrijke tokens identificeren die een grote impact hebben op de juistheid van het modelantwoord en creëert voorkeursdata voor deze tokens, waardoor de prestaties van het model in redeneertaken verbeteren.

Evaluatie van de Prestaties van Phi-4

Om de prestaties van Phi-4 te evalueren, heeft Microsoft verschillende benchmarktests uitgevoerd. Phi-4 presteerde uitstekend in academische benchmarktests zoals MMLU, GPQA, MATH en HumanEval.

Resultaten in Benchmarktests

In de MMLU-test behaalde Phi-4 een hoge score van 84.8. In de GPQA- en MATH-tests overtrof het zelfs GPT-4o, wat de sterke redeneercapaciteit in wiskundige wedstrijdtaken aantoont. In vergelijking met andere modellen van vergelijkbare en grotere omvang presteerde Phi-4 beter dan het open-source model Qwen-2.5-14B-Instruct in 9 van de 12 benchmarktests.