Published on

מיקרוסופט משחררת את מודל Phi-4 העוצמתי: ביצועים מעולים, עוקף את GPT-4o

מחברים
  • avatar
    שם
    Ajax
    Twitter

מיקרוסופט משחררת את מודל Phi-4: ביצועים פורצי דרך

מיקרוסופט חשפה את Phi-4, מודל שפה חדש בעל 14 מיליארד פרמטרים, שהצליח להרשים את קהילת הבינה המלאכותית. המודל הראה ביצועים יוצאי דופן במגוון מבחנים, תוך שהוא עוקף מודלים גדולים ומוכרים כמו GPT-4o של OpenAI, Qwen 2.5-14B ו-Llama-3.3-70B.

ביצועים מרשימים במבחנים

במבחן AMC, תחרות מתמטיקה אמריקאית, השיג Phi-4 ציון של 91.8 נקודות, תוך שהוא מנצח מודלים ידועים כמו Gemini Pro 1.5 ו-Claude 3.5 Sonnet. ביצועיו הכלליים משתווים למודל Llama-3.1 בעל 405 מיליארד פרמטרים, מה שמדגיש את היעילות שלו.

שחרור קוד פתוח לשימוש מסחרי

לאחר שמשקלים לא רשמיים של Phi-4 הועלו ל-Hugging Face, מיקרוסופט שחררה רשמית את המודל בקוד פתוח תחת רישיון MIT, המאפשר שימוש מסחרי. שחרור זה זכה לתגובות חיוביות רבות בקהילה, כולל ברכות רשמיות מ-Hugging Face.

סוד ההצלחה: נתונים סינתטיים ואימון מדויק

ההצלחה של Phi-4, למרות גודלו הקטן, נובעת משימוש בנתונים סינתטיים באיכות גבוהה. נתונים אלו, בניגוד לנתונים שנאספים מהאינטרנט, מספקים חומר לימוד מובנה ושיטתי, המאפשר למודל ללמוד את ההיגיון וההסקה של השפה בצורה יעילה יותר.

  • למידה מובנית: הנתונים הסינתטיים מוצגים באופן הדרגתי, כמו פתרון בעיות מתמטיות, דבר המסייע למודל להבין את מבנה הבעיות.
  • יישור הקשר: הנתונים הסינתטיים מותאמים להקשר ההסקה של המודל, וקרובים לפורמט הפלט הנדרש ביישומים מעשיים. לדוגמה, מידע מפורומים באינטרנט שוכתב לסגנון של שיחות מודל, כך שהמידע נראה טבעי יותר.

עקרונות ייצור הנתונים הסינתטיים

הנתונים הסינתטיים של Phi-4 נוצרו תוך הקפדה על העקרונות הבאים:

  1. מגוון: כיסוי רחב של נושאים וסוגי נתונים.
  2. מורכבות: רמת פירוט וקושי הולכים וגדלים.
  3. דיוק: הבטחת נכונות המידע.
  4. שרשרת הסקה: הצגת תהליכי חשיבה לפתרון בעיות.

מיקרוסופט ייצרה כ-400 מיליארד טוקנים לא משוקללים באמצעות תהליכים מרובי שלבים, תכנון זרעים, שכתוב, שיפור ותיקון עצמי.

נתונים אורגניים וסינון קפדני

בנוסף לנתונים הסינתטיים, Phi-4 השתמש גם בנתונים אורגניים שנאספו ממקורות שונים כמו האינטרנט, ספרים וקוד. נתונים אלה עברו סינון קפדני בשני שלבים, במטרה להוציא רק נתונים בעלי ערך חינוכי גבוה ועומק הסקה. נתונים אלו שימשו כבסיס לייצור נתונים סינתטיים וגם לאימון ישיר, תוך העשרת הידע של המודל.

בסינון, מיקרוסופט השתמשה במסווגים קטנים כדי לבחור מסמכים איכותיים ממערכי נתונים גדולים. כמו כן, בוצע טיפול מיוחד בנתונים רב-לשוניים, כדי להבטיח שהמודל יכול לעבד שפות כמו גרמנית, ספרדית, צרפתית, פורטוגזית, איטלקית, הינדית ויפנית.

תהליך האימון של Phi-4

האימון המוקדם של Phi-4 התבסס בעיקר על נתונים סינתטיים, בשילוב עם נתונים אורגניים איכותיים. גישה זו אפשרה למודל ללמוד יכולות הסקה ופתרון בעיות, תוך צבירת ידע רב.

בשלב האימון האמצעי, אורך ההקשר של Phi-4 הוארך מ-4096 ל-16384, כדי לשפר את יכולתו לעבד טקסטים ארוכים. זה כלל דגימות באורך של מעל 8K הקשר ממערכי נתונים לא סינתטיים, וכן נתונים סינתטיים חדשים שעמדו בדרישות של 4K.

השלב שלאחר האימון היה קריטי למיטוב Phi-4. מיקרוסופט השתמשה בטכניקות של כוונון עדין מבוקר (SFT) ומיטוב העדפה ישיר (DPO).

  • שלב SFT: המודל עבר כוונון עדין באמצעות כ-8 מיליארד טוקנים שנוצרו מנתונים איכותיים מתחומים שונים, עם קצב למידה של 10-6. כמו כן, נוספו נתונים רב-לשוניים מ-40 שפות שונות, כולם בפורמט chatml.
  • טכנולוגיית DPO: המודל כוונן באמצעות יצירת נתוני העדפה, כדי להתאים את הפלט שלו להעדפות אנושיות. מיקרוסופט הציגה גם טכנולוגיית חיפוש טוקנים מרכזיים (PTS) ליצירת זוגות DPO. טכנולוגיה זו מזהה טוקנים מרכזיים המשפיעים על נכונות התשובה של המודל, ויוצרת נתוני העדפה עבורם, ובכך משפרת את ביצועי המודל במשימות הסקה.

הערכת ביצועי Phi-4

מיקרוסופט בחנה את ביצועי Phi-4 במגוון מבחנים. בתחום האקדמי, המודל הציג ביצועים מרשימים במבחנים כמו MMLU, GPQA, MATH ו-HumanEval.

במבחן MMLU, השיג Phi-4 ציון גבוה של 84.8. במבחני GPQA ו-MATH, הוא אף עקף את GPT-4o, והראה יכולות הסקה חזקות במשימות הקשורות לתחרויות מתמטיקה. בהשוואה למודלים אחרים בגודל דומה וגדול יותר, Phi-4 היה טוב יותר ב-9 מתוך 12 מבחנים בהשוואה למודל הקוד הפתוח Qwen-2.5-14B-Instruct.