- Published on
Microsoft Umum Model Phi-4 Berkuasa, Melebihi GPT-4o
Pengenalan kepada Phi-4
Microsoft Research baru-baru ini telah memperkenalkan model parameter kecil terbaru mereka, Phi-4, yang telah menarik perhatian ramai dengan prestasinya yang luar biasa. Walaupun hanya mempunyai 14 bilion parameter, Phi-4 telah menunjukkan prestasi yang mengagumkan dalam pelbagai ujian penanda aras. Ia berjaya mengatasi model-model terkemuka lain seperti GPT-4o dari OpenAI, serta model sumber terbuka lain seperti Qwen 2.5-14B dan Llama-3.3-70B.
Pencapaian Prestasi Phi-4
Dalam ujian yang lebih khusus, Phi-4 mencapai skor yang luar biasa iaitu 91.8 dalam pertandingan matematik Amerika, AMC. Pencapaian ini meletakkannya di hadapan banyak model sumber terbuka dan tertutup yang terkenal termasuk Gemini Pro 1.5 dan Claude 3.5 Sonnet. Prestasi keseluruhannya bahkan setanding dengan Llama-3.1 yang mempunyai 405 bilion parameter. Perkembangan ini telah mencetuskan reaksi yang kuat dalam komuniti. Sebelum ini, pengguna telah memuat naik berat Phi-4 yang tidak sah di Hugging Face. Kini, Microsoft secara rasminya telah membuka sumber Phi-4 di bawah lesen MIT, yang membolehkan penggunaan komersial. Pautan ke sumber terbuka adalah: phi-4. Hugging Face juga telah mengucapkan tahniah atas pelancaran sumber terbuka Phi-4, yang menunjukkan impaknya yang signifikan.
Kelebihan Utama Phi-4: Data Sintetik & Latihan Halus
Keupayaan Phi-4 untuk mencapai prestasi yang cemerlang dengan parameter yang lebih kecil adalah disebabkan oleh data sintetik berkualiti tinggi. Berbanding dengan data yang diperoleh melalui web scraping, data sintetik menyediakan bahan pembelajaran yang lebih berstruktur dan bertahap, membantu model mempelajari logik bahasa dan proses penaakulan dengan lebih cekap.
- Pembelajaran Berstruktur: Data sintetik boleh dibentangkan langkah demi langkah, contohnya dalam penyelesaian masalah matematik. Ini membantu model memahami struktur dan pendekatan penyelesaian masalah dengan lebih baik.
- Penyelarasan Konteks: Data sintetik lebih selaras dengan konteks penaakulan model, menyerupai format output yang diperlukan dalam aplikasi sebenar. Ini membolehkan model menyesuaikan diri dengan keperluan aplikasi sebenar semasa fasa pra-latihan. Sebagai contoh, mengubah maklumat fakta daripada forum dalam talian menjadi gaya interaksi model besar, menjadikan maklumat tersebut lebih semula jadi dan munasabah dalam perbualan yang dihasilkan oleh model.
Prinsip-prinsip penjanaan data sintetik Phi-4 termasuk:
- Kepelbagaian: Memastikan data mencerminkan pelbagai jenis maklumat dan konteks.
- Kecermatan dan Kerumitan: Data harus cukup terperinci dan mencabar untuk mendorong model belajar.
- Ketepatan: Data perlu tepat dan bebas daripada kesalahan.
- Rantai Penaakulan: Data perlu mengandungi urutan logik penaakulan yang jelas.
Prinsip-prinsip ini memastikan kualiti data sintetik dan meliputi lebih daripada 50 jenis set data sintetik yang berbeza. Microsoft telah menghasilkan kira-kira 400 bilion token yang tidak wajaran melalui pelbagai kaedah seperti proses prompt berperingkat, penentuan benih, penulisan semula dan peningkatan, serta semakan kendiri.
Selain data sintetik, Phi-4 juga menapis data organik dengan ketat. Data dikumpulkan daripada pelbagai sumber termasuk kandungan web, buku berlesen, dan repositori kod. Melalui proses penapisan dua peringkat, Microsoft berjaya mengekstrak data benih yang mempunyai nilai pendidikan tinggi dan kedalaman penaakulan. Data benih ini menyediakan asas untuk penjanaan data sintetik dan juga digunakan secara langsung untuk pra-latihan, seterusnya memperkayakan pengetahuan model. Dalam proses penapisan, Microsoft menggunakan kaedah penapisan berasaskan pengelas kecil untuk memilih dokumen berkualiti tinggi daripada data web berskala besar. Pemprosesan khusus juga dilakukan untuk data berbilang bahasa untuk memastikan model dapat mengendalikan pelbagai bahasa termasuk Jerman, Sepanyol, Perancis, Portugis, Itali, Hindi, dan Jepun.
Proses Latihan Phi-4
Pra-latihan Phi-4 terutamanya menggunakan data sintetik, ditambah dengan sejumlah kecil data organik berkualiti tinggi. Strategi campuran data ini membolehkan model mempelajari penaakulan dan keupayaan penyelesaian masalah, sambil juga menyerap kandungan pengetahuan yang kaya. Semasa fasa latihan pertengahan, Phi-4 memanjangkan panjang konteks daripada 4096 kepada 16384, untuk meningkatkan keupayaan model dalam memproses teks yang panjang. Ini termasuk sampel yang lebih panjang daripada konteks 8K yang ditapis daripada set data bukan sintetik berkualiti tinggi, serta set data sintetik yang baru dibuat yang memenuhi keperluan urutan 4K.
Fasa latihan pasca adalah kunci kepada pengoptimuman Phi-4. Microsoft menggunakan teknik penalaan halus yang diselia (SFT) dan pengoptimuman keutamaan langsung (DPO).
- Fasa SFT: Model pra-latihan ditala halus menggunakan kira-kira 8B token yang dihasilkan daripada data berkualiti tinggi dari pelbagai domain, dengan kadar pembelajaran 10-6. Data berbilang bahasa daripada 40 bahasa juga ditambah, dan semua data dalam format chatml.
- Teknik DPO: Output model diselaraskan melalui penjanaan data keutamaan untuk menjadikannya lebih selaras dengan keutamaan manusia. Microsoft juga memperkenalkan teknik carian token utama (PTS) untuk menjana pasangan DPO. Teknik ini mengenal pasti token utama yang mempunyai kesan yang besar terhadap ketepatan jawapan model dan mencipta data keutamaan untuk token ini, seterusnya meningkatkan prestasi model dalam tugas penaakulan.
Penilaian Prestasi Phi-4
Untuk menilai prestasi Phi-4, Microsoft menjalankan ujian pada pelbagai penanda aras. Dalam ujian penanda aras akademik seperti MMLU, GPQA, MATH, dan HumanEval, Phi-4 menunjukkan prestasi yang sangat baik. Dalam ujian MMLU, Phi-4 mencapai skor tinggi iaitu 84.8. Dalam ujian GPQA dan MATH, ia mengatasi GPT-4o, menunjukkan keupayaan penaakulan yang kuat dalam tugas berkaitan pertandingan matematik. Berbanding dengan model lain yang bersaiz sama dan lebih besar, Phi-4 mengungguli model sumber terbuka yang serupa iaitu Qwen-2.5-14B-Instruct dalam 9 daripada 12 ujian penanda aras.