Published on

Otwarty model Microsoft Phi-4: Potężna wydajność, przewyższa GPT-4o i jest dostępny do użytku komercyjnego

Autorzy
  • avatar
    Imię
    Ajax
    Twitter

Wprowadzenie do Phi-4

Microsoft Research zaprezentował światu swój najnowszy model językowy, Phi-4, który charakteryzuje się niewielką liczbą parametrów, ale imponującą wydajnością. Ten model, zaledwie 14 miliardów parametrów, zdołał zaskoczyć społeczność swoją skutecznością, w wielu testach benchmarkowych przewyższając nawet flagowy model OpenAI, GPT-4o. Co więcej, Phi-4 wyprzedza inne czołowe modele open-source, takie jak Qwen 2.5-14B i Llama-3.3-70B.

Imponujące Wyniki w Testach

W konkretnych testach, Phi-4 osiągnął znakomity wynik 91,8 punktów w amerykańskim konkursie matematycznym AMC. Ten wynik pozwala mu pokonać wiele znanych modeli, zarówno zamkniętych, jak i otwartych, w tym Gemini Pro 1.5 i Claude 3.5 Sonnet. Jego ogólna wydajność jest porównywalna z modelem Llama-3.1, który posiada aż 405 miliardów parametrów.

Reakcja Społeczności i Licencja Open Source

Udostępnienie Phi-4 wywołało silną reakcję społeczności, zwłaszcza po tym, jak nieautoryzowane wersje wag modelu pojawiły się na platformie Hugging Face. Teraz, Microsoft oficjalnie udostępnił Phi-4 na licencji MIT, co umożliwia jego komercyjne wykorzystanie. Hugging Face również wyraziło swoje gratulacje z powodu udostępnienia Phi-4, co świadczy o jego dużym wpływie.

Kluczowe Zalety Phi-4: Syntetyczne Dane i Precyzyjny Trening

Sekret doskonałej wydajności Phi-4, pomimo niewielkiej liczby parametrów, tkwi w wysokiej jakości danych syntetycznych. W porównaniu z tradycyjnymi danymi pozyskiwanymi z sieci, dane syntetyczne oferują bardziej strukturalne i stopniowe materiały do nauki, co pozwala modelowi efektywniej przyswajać logikę i procesy wnioskowania języka.

Strukturalne Uczenie

Dane syntetyczne są prezentowane krok po kroku, co jest szczególnie przydatne w zadaniach matematycznych. Taka struktura pomaga modelowi lepiej zrozumieć strukturę problemu i sposób jego rozwiązania.

Dopasowanie Kontekstowe

Dane syntetyczne lepiej dopasowują się do kontekstu wnioskowania modelu, co sprawia, że są bardziej zbliżone do formatu wyjściowego, który model ma generować w rzeczywistych zastosowaniach. Przykładowo, informacje z forów internetowych są przekształcane w styl interakcji z dużym modelem, dzięki czemu są bardziej naturalne i spójne w generowanych dialogach.

Zasady Generowania Danych Syntetycznych Phi-4

Proces generowania danych syntetycznych dla Phi-4 opiera się na następujących zasadach:

  • Różnorodność: Zapewnienie szerokiego zakresu tematów i stylów.
  • Subtelność i Złożoność: Tworzenie danych, które angażują model na różnych poziomach trudności.
  • Dokładność: Gwarantowanie, że dane są poprawne i wiarygodne.
  • Łańcuch Wnioskowania: Tworzenie danych, które promują logiczne myślenie.

Te zasady zapewniają wysoką jakość danych syntetycznych, obejmujących ponad 50 różnych typów zestawów. Microsoft wygenerował około 400 miliardów tokenów, stosując różne metody, takie jak wieloetapowe podpowiedzi, planowanie zalążków, przepisywanie i ulepszanie oraz autorewizja.

Wybór i Filtracja Danych Organicznych

Oprócz danych syntetycznych, Phi-4 korzysta również z organicznych danych, które przechodzą rygorystyczną selekcję i filtrację. Dane są zbierane z różnych źródeł, takich jak treści internetowe, licencjonowane książki i repozytoria kodu. Następnie przechodzą przez dwuetapowy proces filtracji, w celu wyodrębnienia danych o wysokiej wartości edukacyjnej i głębi wnioskowania. Te dane stanowią podstawę do generowania danych syntetycznych, a także są bezpośrednio wykorzystywane w procesie pre-treningu, wzbogacając wiedzę modelu.

Metoda Filtracji oparta na Małych Klasyfikatorach

Microsoft stosuje metodę filtracji opartą na małych klasyfikatorach, aby wybierać wysokiej jakości dokumenty z ogromnych zbiorów danych internetowych. Szczególną uwagę poświęcono danym wielojęzycznym, aby model mógł obsługiwać różne języki, w tym niemiecki, hiszpański, francuski, portugalski, włoski, hindi i japoński.

Proces Treningu Phi-4

Pre-trening Phi-4 opiera się głównie na danych syntetycznych, uzupełnionych niewielką ilością wysokiej jakości danych organicznych. Ta strategia pozwala modelowi nie tylko rozwijać umiejętności wnioskowania i rozwiązywania problemów, ale także przyswajać szeroki zakres wiedzy.

Wydłużanie Kontekstu w Fazie Średniej

W fazie średniej treningu, długość kontekstu Phi-4 została zwiększona z 4096 do 16384, aby poprawić zdolność modelu do przetwarzania długich tekstów. Obejmuje to próbki o długości powyżej 8K z wysokiej jakości zbiorów danych niesyntetycznych oraz nowo utworzone dane syntetyczne spełniające wymagania sekwencji 4K.

Optymalizacja w Fazie Końcowej

Faza końcowa treningu jest kluczowa dla optymalizacji Phi-4. Microsoft zastosował nadzorowane dostrajanie (SFT) i bezpośrednią optymalizację preferencji (DPO).

  • SFT: Model jest dostrajany przy użyciu 8 miliardów tokenów wygenerowanych z wysokiej jakości danych z różnych dziedzin, z szybkością uczenia 10^-6. Dodano również dane wielojęzyczne w 40 językach, wszystkie w formacie chatml.

  • DPO: Ta technika dostosowuje wyniki modelu, aby były bardziej zgodne z ludzkimi preferencjami. Microsoft wprowadził również wyszukiwanie kluczowych tokenów (PTS), które identyfikuje tokeny mające duży wpływ na poprawność odpowiedzi modelu, co pozwala na tworzenie preferencyjnych danych i poprawę wydajności w zadaniach wnioskowania.

Ocena Wydajności Phi-4

Aby ocenić wydajność Phi-4, Microsoft przeprowadził testy na różnych benchmarkach. W testach akademickich, takich jak MMLU, GPQA, MATH i HumanEval, Phi-4 wypadł bardzo dobrze.

  • W teście MMLU, Phi-4 uzyskał wysoki wynik 84,8.
  • W testach GPQA i MATH model przewyższył nawet GPT-4o, demonstrując silne zdolności wnioskowania w zadaniach związanych z konkursami matematycznymi.
  • W porównaniu z innymi modelami o podobnej i większej skali, Phi-4 przewyższył model open-source Qwen-2.5-14B-Instruct w 9 z 12 testów benchmarkowych.