- Published on
Microsoft Merilis Model Phi-4 yang Kuat, Melampaui GPT-4o
Pengenalan Phi-4: Model Kecil dengan Performa Tinggi
Microsoft Research baru-baru ini mengumumkan peluncuran model parameter kecil terbaru mereka, Phi-4. Model ini telah menarik perhatian luas karena performanya yang luar biasa. Dengan hanya 14 miliar parameter, Phi-4 menunjukkan hasil yang mengesankan dalam berbagai uji tolok ukur, bahkan melampaui GPT-4o dari OpenAI dan model open-source terkemuka lainnya seperti Qwen 2.5-14B dan Llama-3.3-70B.
Dalam pengujian yang lebih spesifik, Phi-4 berhasil meraih skor 91.8 dalam American Mathematics Competition (AMC), melampaui banyak model terkenal lainnya, baik open-source maupun closed-source, termasuk Gemini Pro 1.5 dan Claude 3.5 Sonnet. Kinerja keseluruhannya bahkan sebanding dengan Llama-3.1 yang memiliki 405 miliar parameter.
Langkah ini memicu reaksi yang kuat dari komunitas, terutama setelah sebelumnya ada pengguna yang mengunggah bobot Phi-4 versi bajakan di Hugging Face. Kini, Microsoft secara resmi telah merilis Phi-4 secara open-source di bawah lisensi MIT, yang memungkinkan penggunaan komersial.
Alamat open source: phi-4
Hugging Face juga mengucapkan selamat atas perilisan Phi-4 secara open-source, yang menunjukkan betapa besar pengaruhnya.
Keunggulan Utama Phi-4: Data Sintetis dan Pelatihan yang Halus
Salah satu faktor kunci yang memungkinkan Phi-4 mencapai performa luar biasa dengan parameter yang relatif kecil adalah penggunaan data sintetis berkualitas tinggi. Dibandingkan dengan data yang dikumpulkan dari web secara tradisional, data sintetis menawarkan materi pembelajaran yang lebih terstruktur dan bertahap, membantu model mempelajari logika dan proses penalaran bahasa dengan lebih efisien.
- Pembelajaran Terstruktur: Data sintetis dapat disajikan secara bertahap mengikuti langkah-langkah pemecahan masalah, misalnya dalam penyelesaian soal matematika. Ini membantu model lebih memahami struktur soal dan cara penyelesaiannya.
- Penyelarasan Konteks: Data sintetis dapat lebih baik menyelaraskan dengan konteks penalaran model, lebih dekat dengan format keluaran yang dibutuhkan model dalam aplikasi praktis. Ini memungkinkan model untuk beradaptasi dengan kebutuhan aplikasi praktis sejak tahap pra-pelatihan. Misalnya, mengubah informasi faktual dari forum online menjadi gaya interaksi model besar, sehingga informasi ini lebih alami dan masuk akal dalam dialog yang dihasilkan model.
Data sintetis Phi-4 dihasilkan dengan mengikuti prinsip-prinsip berikut:
- Keragaman
- Kekayaan dan Kompleksitas
- Akurasi
- Rantai Penalaran
Prinsip-prinsip ini memastikan kualitas data sintetis dan mencakup lebih dari 50 jenis dataset sintetis yang berbeda. Microsoft menggunakan berbagai metode seperti proses prompting multi-tahap, kurasi benih, penulisan ulang dan peningkatan, dan self-revision untuk menghasilkan sekitar 400 miliar token yang tidak tertimbang.
Selain data sintetis, Phi-4 juga melakukan penyaringan dan pemfilteran yang ketat terhadap data organik. Data dikumpulkan dari berbagai sumber seperti konten web, buku berlisensi, dan repositori kode. Melalui proses pemfilteran dua tahap, data inti dengan nilai pendidikan tinggi dan kedalaman penalaran diekstraksi. Data inti ini memberikan dasar bagi generasi data sintetis dan juga digunakan langsung untuk pra-pelatihan, yang selanjutnya memperkaya basis pengetahuan model.
Dalam proses penyaringan, Microsoft menggunakan metode pemfilteran berbasis pengklasifikasi kecil untuk memilih dokumen berkualitas tinggi dari data web skala besar. Pemrosesan khusus juga dilakukan pada data multi-bahasa untuk memastikan model dapat memproses berbagai bahasa, termasuk Jerman, Spanyol, Prancis, Portugis, Italia, Hindi, dan Jepang.
Proses Pelatihan Phi-4
Pelatihan awal Phi-4 sebagian besar menggunakan data sintetis, dilengkapi dengan sedikit data organik berkualitas tinggi. Strategi campuran data ini memungkinkan model untuk mempelajari penalaran dan kemampuan pemecahan masalah, sambil juga menyerap kekayaan pengetahuan.
Pada tahap pelatihan pertengahan, Phi-4 memperluas panjang konteks dari 4096 menjadi 16384, untuk meningkatkan kemampuan model dalam memproses teks panjang. Ini termasuk sampel yang lebih panjang dari konteks 8K yang disaring dari dataset non-sintetis berkualitas tinggi, dan dataset sintetis yang baru dibuat yang memenuhi persyaratan urutan 4K.
Tahap pasca-pelatihan adalah kunci untuk optimasi Phi-4. Microsoft menggunakan teknik fine-tuning yang diawasi (SFT) dan optimasi preferensi langsung (DPO).
- Tahap SFT: Model pra-pelatihan disesuaikan menggunakan sekitar 8 miliar token yang dihasilkan dari data berkualitas tinggi dari berbagai bidang, dengan laju pembelajaran 10-6. Data multi-bahasa dari 40 bahasa juga ditambahkan, dengan semua data menggunakan format chatml.
- Teknik DPO: Output model disesuaikan melalui generasi data preferensi untuk membuatnya lebih sesuai dengan preferensi manusia. Microsoft juga memperkenalkan teknik pencarian token kunci (PTS) untuk menghasilkan pasangan DPO. Teknik ini dapat mengidentifikasi token kunci yang memiliki dampak signifikan pada keakuratan respons model dan membuat data preferensi untuk token-token ini, sehingga meningkatkan kinerja model dalam tugas penalaran.
Evaluasi Kinerja Phi-4
Untuk mengevaluasi kinerja Phi-4, Microsoft melakukan pengujian pada beberapa benchmark. Phi-4 menunjukkan kinerja yang luar biasa dalam benchmark akademik seperti MMLU, GPQA, MATH, dan HumanEval.
Dalam pengujian MMLU, Phi-4 mencapai skor tinggi 84.8. Dalam pengujian GPQA dan MATH, bahkan melampaui GPT-4o, menunjukkan kemampuan penalaran yang kuat dalam tugas terkait kompetisi matematika. Dalam perbandingan dengan model-model lain dengan ukuran yang sama dan lebih besar, Phi-4 mengungguli model open-source sejenis Qwen-2.5-14B-Instruct dalam 9 dari 12 benchmark.