Published on

ไมโครซอฟท์เปิดตัว Phi-4 โมเดลภาษาขนาดเล็กทรงพลัง เหนือกว่า GPT-4o พร้อมใช้งานเชิงพาณิชย์

ผู้เขียน
  • avatar
    ชื่อ
    Ajax
    Twitter

ไมโครซอฟท์เปิดตัวโมเดล Phi-4: ก้าวข้ามขีดจำกัดด้วยประสิทธิภาพที่เหนือชั้น

Microsoft Research ได้เปิดตัวโมเดลภาษาขนาดเล็กตัวใหม่ล่าสุดอย่าง Phi-4 ซึ่งได้รับความสนใจอย่างมากจากประสิทธิภาพที่โดดเด่น แม้ว่าจะมีพารามิเตอร์เพียง 14 พันล้าน แต่ Phi-4 กลับทำคะแนนในการทดสอบมาตรฐานต่างๆ ได้อย่างน่าประทับใจ จนสามารถเอาชนะ GPT-4o ของ OpenAI รวมถึงโมเดลโอเพนซอร์สชั้นนำอื่นๆ อย่าง Qwen 2.5-14B และ Llama-3.3-70B ได้

ในการทดสอบที่เฉพาะเจาะจงมากขึ้น Phi-4 ได้คะแนน 91.8 ในการแข่งขันคณิตศาสตร์ AMC ของสหรัฐอเมริกา ซึ่งสูงกว่าโมเดลชื่อดังทั้งแบบเปิดและปิดหลายตัว เช่น Gemini Pro 1.5 และ Claude 3.5 Sonnet ประสิทธิภาพโดยรวมของมันเทียบได้กับ Llama-3.1 ที่มีพารามิเตอร์ถึง 405 พันล้าน

การเปิดตัวครั้งนี้ได้รับการตอบรับอย่างกระตือรือร้นจากชุมชน หลังจากที่ก่อนหน้านี้มีผู้ใช้ได้อัปโหลดน้ำหนักของ Phi-4 เวอร์ชั่นละเมิดลิขสิทธิ์บน Hugging Face ตอนนี้ Microsoft ได้เปิดตัว Phi-4 อย่างเป็นทางการภายใต้ใบอนุญาต MIT ซึ่งอนุญาตให้ใช้ในเชิงพาณิชย์ได้

ที่อยู่โอเพนซอร์ส: phi-4 (ลิงก์แบบข้อความ)

Hugging Face ได้แสดงความยินดีกับการเปิดตัว Phi-4 ซึ่งแสดงให้เห็นถึงอิทธิพลของมัน

จุดแข็งหลักของ Phi-4: ข้อมูลสังเคราะห์และการฝึกฝนที่ละเอียด

เหตุผลที่ Phi-4 สามารถทำคะแนนได้ดีด้วยพารามิเตอร์ที่น้อยนั้น เป็นผลมาจากข้อมูลสังเคราะห์คุณภาพสูง เมื่อเทียบกับข้อมูลที่ได้จากการรวบรวมข้อมูลจากเว็บแบบดั้งเดิม ข้อมูลสังเคราะห์สามารถให้ข้อมูลการเรียนรู้ที่เป็นโครงสร้างและเป็นขั้นตอน ซึ่งช่วยให้โมเดลเรียนรู้ตรรกะและกระบวนการให้เหตุผลของภาษาได้อย่างมีประสิทธิภาพมากขึ้น

  • การเรียนรู้แบบมีโครงสร้าง: ข้อมูลสังเคราะห์สามารถนำเสนอตามขั้นตอนการแก้ปัญหา เช่น ในการแก้ปัญหาทางคณิตศาสตร์ ซึ่งช่วยให้โมเดลเข้าใจโครงสร้างของปัญหาและแนวทางการแก้ปัญหาได้ดีขึ้น

  • การจัดแนวบริบท: ข้อมูลสังเคราะห์สามารถจัดแนวให้เข้ากับบริบทการให้เหตุผลของโมเดลได้ดีขึ้น ซึ่งใกล้เคียงกับรูปแบบเอาต์พุตที่โมเดลต้องการสร้างในการใช้งานจริง ทำให้โมเดลปรับตัวเข้ากับความต้องการของสถานการณ์การใช้งานจริงได้ตั้งแต่ขั้นตอนการฝึกอบรมเบื้องต้น ตัวอย่างเช่น การเขียนข้อมูลข้อเท็จจริงจากฟอรัมออนไลน์ใหม่ในสไตล์ที่คล้ายกับการโต้ตอบของโมเดลขนาดใหญ่ ทำให้ข้อมูลเหล่านั้นเป็นธรรมชาติและสมเหตุสมผลมากขึ้นในการสนทนาที่โมเดลสร้างขึ้น

หลักการสร้างข้อมูลสังเคราะห์ของ Phi-4 มีดังนี้:

  1. ความหลากหลาย
  2. ความละเอียดอ่อนและความซับซ้อน
  3. ความถูกต้อง
  4. ห่วงโซ่การให้เหตุผล

หลักการเหล่านี้ทำให้มั่นใจได้ถึงคุณภาพของข้อมูลสังเคราะห์ และครอบคลุมชุดข้อมูลสังเคราะห์ที่แตกต่างกันกว่า 50 ประเภท Microsoft ได้สร้างโทเค็นที่ยังไม่ได้ถ่วงน้ำหนักประมาณ 400 พันล้านโทเค็น โดยใช้วิธีการต่างๆ เช่น กระบวนการแจ้งเตือนหลายขั้นตอน การคัดสรรเมล็ดพันธุ์ การเขียนใหม่และการปรับปรุง และการแก้ไขตนเอง

นอกเหนือจากข้อมูลสังเคราะห์แล้ว Phi-4 ยังได้คัดกรองและกรองข้อมูลออร์แกนิกอย่างเข้มงวด โดยรวบรวมข้อมูลจากหลายช่องทาง เช่น เนื้อหาเว็บ หนังสือที่ได้รับอนุญาต และฐานข้อมูลโค้ด และได้คัดเลือกข้อมูลเมล็ดพันธุ์ที่มีคุณค่าทางการศึกษาและเชิงลึกด้านการให้เหตุผลสูงผ่านกระบวนการกรองสองขั้นตอน ข้อมูลเมล็ดพันธุ์เหล่านี้เป็นพื้นฐานสำหรับการสร้างข้อมูลสังเคราะห์ และยังใช้โดยตรงสำหรับการฝึกอบรมเบื้องต้น ซึ่งช่วยเพิ่มพูนความรู้ของโมเดล

ในกระบวนการคัดกรอง Microsoft ใช้วิธีการกรองโดยใช้ตัวจำแนกขนาดเล็ก เพื่อเลือกเอกสารคุณภาพสูงจากข้อมูลเว็บขนาดใหญ่ และได้ดำเนินการประมวลผลข้อมูลหลายภาษาโดยเฉพาะ เพื่อให้แน่ใจว่าโมเดลสามารถประมวลผลภาษาต่างๆ ได้ รวมถึงภาษาเยอรมัน สเปน ฝรั่งเศส โปรตุเกส อิตาลี ฮินดี และญี่ปุ่น

กระบวนการฝึกอบรม Phi-4

การฝึกอบรมเบื้องต้นของ Phi-4 ส่วนใหญ่ใช้ข้อมูลสังเคราะห์ เสริมด้วยข้อมูลออร์แกนิกคุณภาพสูงจำนวนเล็กน้อย กลยุทธ์การผสมข้อมูลนี้ช่วยให้โมเดลสามารถเรียนรู้ความสามารถในการให้เหตุผลและการแก้ปัญหา พร้อมทั้งดูดซับเนื้อหาความรู้ที่หลากหลาย

ในช่วงการฝึกอบรมระยะกลาง Phi-4 ได้ขยายความยาวบริบทจาก 4096 เป็น 16384 เพื่อปรับปรุงความสามารถของโมเดลในการจัดการข้อความยาว ซึ่งรวมถึงตัวอย่างที่มีบริบทที่ยาวกว่า 8K ที่คัดเลือกจากชุดข้อมูลที่ไม่ใช่ข้อมูลสังเคราะห์คุณภาพสูง และชุดข้อมูลสังเคราะห์ที่สร้างขึ้นใหม่ซึ่งตรงตามข้อกำหนดลำดับ 4K

ขั้นตอนการฝึกอบรมหลังการฝึกอบรมเป็นสิ่งสำคัญสำหรับการปรับปรุง Phi-4 โดย Microsoft ได้ใช้เทคนิคการปรับแต่งแบบมีผู้ดูแล (SFT) และการปรับแต่งความชอบโดยตรง (DPO)

  • ขั้นตอน SFT: ใช้โทเค็นประมาณ 8 พันล้านที่สร้างจากข้อมูลคุณภาพสูงจากโดเมนต่างๆ เพื่อปรับแต่งโมเดลที่ฝึกอบรมเบื้องต้น โดยมีอัตราการเรียนรู้ 10-6 และเพิ่มข้อมูลหลายภาษา 40 ภาษา โดยข้อมูลทั้งหมดอยู่ในรูปแบบ chatml

  • เทคนิค DPO: ปรับเอาต์พุตของโมเดลให้สอดคล้องกับความชอบของมนุษย์มากขึ้นโดยการสร้างข้อมูลความชอบ Microsoft ยังได้เปิดตัวเทคนิคการค้นหาโทเค็นสำคัญ (PTS) เพื่อสร้างคู่ DPO ซึ่งสามารถระบุโทเค็นสำคัญที่มีผลกระทบอย่างมากต่อความถูกต้องของคำตอบของโมเดล และสร้างข้อมูลความชอบสำหรับโทเค็นเหล่านี้ เพื่อปรับปรุงประสิทธิภาพของโมเดลในงานการให้เหตุผล

การประเมินประสิทธิภาพของ Phi-4

เพื่อประเมินประสิทธิภาพของ Phi-4 Microsoft ได้ทำการทดสอบในเกณฑ์มาตรฐานหลายรายการ Phi-4 ทำได้ดีในการทดสอบเชิงวิชาการ เช่น MMLU, GPQA, MATH และ HumanEval

ในการทดสอบ MMLU, Phi-4 ได้คะแนนสูงถึง 84.8 ในการทดสอบ GPQA และ MATH นั้น Phi-4 ได้เอาชนะ GPT-4o ด้วยซ้ำ โดยแสดงให้เห็นถึงความสามารถในการให้เหตุผลที่แข็งแกร่งในงานที่เกี่ยวข้องกับการแข่งขันทางคณิตศาสตร์ เมื่อเปรียบเทียบกับโมเดลที่มีขนาดใกล้เคียงกันและขนาดใหญ่กว่า Phi-4 ทำได้ดีกว่าโมเดลโอเพนซอร์สที่คล้ายกัน Qwen-2.5-14B-Instruct ใน 9 จาก 12 เกณฑ์มาตรฐาน