- Published on
מודל ה-o3 של OpenAI: קפיצת מדרגה ביכולות ההסקה ופריצת דרך ב-ARC AGI
עיקרי הדברים
- הסכמה מרובה חיונית לביצועים מיטביים של מודל o1: נדרש שימוש במספר פלטי הסקה ולא להסתמך על פלט בודד.
- אין הוכחות לשינוי בארכיטקטורת ההסקה של o3: השמועות על הוספת חיפוש עץ אינן מבוססות. חוק ההרחבה של ההסקה קובע שדגימה מרובה מאותו זרם פלט בודד משפרת ביצועים.
- שנת 2024 מסמנת את חזרתה של למידת חיזוק (RL) לליבת הבינה המלאכותית: המודל o3 של OpenAI מציג התקדמות משמעותית בשימוש במודלים לשוניים להסקה בעזרת o1.
- o3 מפתיע יותר מ-o1 ומסמן התקדמות מהירה במודלי הסקה: ההשקה המהירה של o3 מעוררת ציפיות גבוהות לשנת 2025.
- מודלי o1 יאומצו באופן נרחב במחקר הבינה המלאכותית: למרות ספקות לגבי תחומים מחוץ למתמטיקה ומדעי הטבע, הם יאיצו את ההתקדמות.
- o3 מסמן את הטיפוס לפסגה הבאה בתחום: התועלת מהסתמכות על טקסט אינטרנטי לאימון מוקדם פוחתת.
- o3 השיג פריצות דרך משמעותיות בהערכות הסקה:
- המודל הראשון שחצה את רף ה-85% הצלחה בפרס ARC AGI (על נתונים ציבוריים ולא סט בדיקה).
- קפיצה מ-2% ל-25% בבחינת Frontier Math.
- שיפורים משמעותיים בכל מדדי התכנות המובילים.
- שיפורים אלו יתבטאו בהאצת מחקר הבינה המלאכותית: הפחתת עלויות ההסקה תשנה תפקידי הנדסת תוכנה רבים.
- OpenAI פרסמה מחקר על יישור זהיר: מודלי o1 משפרים מחקר בטיחות ויישור.
- האם יכולות הסקה משופרות יועילו מעבר לתחומים הניתנים לאימות? שאלה זו תבחן שוב בשנת 2025.
סקירה כללית של o3
- מודל o3 של OpenAI הוכרז ביום האחרון של "אירוע 12 הימים של OpenAI".
- המודל השיג תוצאות מרשימות, תוך שהוא עולה על מודלים מתקדמים קודמים בתחומים רבים.
- פרט שנוטה להישכח בבלוגים על מודלי o1 הוא משמעות הצללות בגרפים: עמודות מלאות מייצגות דיוק pass@1, והאזור המוצל מייצג ביצועים עם הצבעת רוב מ-64 דגימות (קונצנזוס).
- קונצנזוס מרובה חיוני לביצועים מיטביים של מודל o1: יש להשתמש במספר זרמי פלט ולא רק באחד.
- אין צורך בחיפוש עץ או ייצוג ביניים: מצב המומחה של o1 ותוצאות פרס ARC מסתמכים על יצירה מקבילה זו כדי להשיג את הניקוד הגבוה ביותר.
- הערות איכותיות על בחינת Frontier Math:
- "השאלות מאתגרות מאוד...אני חושב שהן יותירו את הבינה המלאכותית חסרת אונים לפחות בשנים הקרובות." - טרנס טאו, זוכה מדליית פילדס 2006.
- "אף אחת מהשאלות שראיתי אינה בתחום המחקר שלי ונראה שאיני יכול לפתור אותן... הן נראות ברמה אחת מעל שאלות ה-IMO (אולימפיאדת המתמטיקה הבינלאומית)." - טימותי גאוארס, זוכה מדליית פילדס 2006.
- בחינה זו הוצגה ב-7 בנובמבר ונחשבת לאחד הגבולות הפתוחים האחרונים ביכולות הבינה המלאכותית.
- o3 הוא המודל היחיד שהגיע לציון דו ספרתי, וקפץ ל-25%.
- התוצאה המובילה השנייה היא בתחום התכנות:
- OpenAI הציגה בשידור חי ציון של 71.7% ב-SWE-Bench Verified.
- תוצאות נרחבות ב-Codeforces (אתר תחרויות תכנות).
- o3 הגיע לציון 2727 עם הצבעת קונצנזוס, ברמה של רב אמן בינלאומי, בערך בין 200 המתכנתים התחרותיים הטובים בעולם.
- o3-mini עדיף על o1 ובעלויות נמוכות יותר: זה עשוי להפוך למודל משפיע יותר עבור קהל משתמשים רחב יותר.
- הפריצה הסופית בשידור החי של o3 הייתה הפתרון המוצלח של אתגר ARC AGI.
התמודדות עם הערכת ARC
- מאגר ההפשטה וההסקה (ARC) הוצע על ידי פרנסואה שולה במאמרו משנת 2019 "על המידה של אינטליגנציה".
- הערכת ARC נועדה להיות קרובה יותר להערכת האינטליגנציה האנושית:
- הוצגה הגדרה פורמלית חדשה לאינטליגנציה המבוססת על תורת המידע האלגוריתמית.
- ההגדרה מתארת אינטליגנציה כיעילות רכישת מיומנויות, תוך הדגשת היקף, קושי בהכללה, ידע מוקדם וניסיון.
- הוצגו הנחיות עיצוב למערך בסיס נתונים כללי לבינה מלאכותית.
- הוצג מאגר ההפשטה וההסקה (ARC) המבוסס על קבוצה מוגדרת של ידע מוקדם, קרוב ככל האפשר לידע המוקדם המולד של בני האדם.
- ARC יכול לשמש למדידת אינטליגנציה נוזלית כללית דמוית אדם.
- פרס ARC AGI הושק ביוני 2024: פרס של מיליון דולר לפתרון הראשון שעומד בקריטריונים מסוימים ופותר קבוצה של משימות ARC פרטיות.
- סף ה-"פתרון" הוגדר כ-85% דיוק.
- OpenAI ו-ARC Prize שיתפו את התוצאות הבאות:
- יש לשים לב לציר ה-x של המחיר.
- לפני מודלי o1, המודל הטוב ביותר של OpenAI, GPT-4o, השיג רק 5% דיוק.
- ההתקדמות המהירה של OpenAI במודלי ההסקה החדשים סוכמה על ידי מייק קנופ, ממייסדי פרס ARC:
- GPT-2 (2019): 0%
- GPT-3 (2020): 0%
- GPT-4 (2023): 2%
- GPT-4o (2024): 5%
- o1-preview (2024): 21%
- o1 high (2024): 32%
- o1 Pro (2024): כ-50%
- o3 tuned low (2024): 76%
- o3 tuned high (2024): 87%
- ביוני השנה, פתרון ARC-AGI נחשב קשה ביותר.
- ההתקדמות המהירה הפתיעה גם את האופטימיים ביותר לגבי Q* ושיטות הסקה אחרות.
- שולה שיתף פרטים נוספים באתר פרס ARC:
- o3 נבחן עם שני מערכי נתונים של ARC-AGI:
- הערכה חצי-פרטית: 100 משימות פרטיות להערכת התאמת יתר.
- הערכה ציבורית: 400 משימות ציבוריות.
- הבדיקות בוצעו בשני רמות חישוב, עם גדלי דגימה משתנים: 6 (מצב יעיל) ו-1024 (מצב לא יעיל, פי 172 חישוב).
- תוצאות הבדיקות מוצגות בטבלה.
- הערה: הנתונים המדויקים של עלות החישוב הגבוהה של o3 טרם פורסמו. כמות החישוב גדולה פי 172 מהתצורה בעלות נמוכה.
- o3 נבחן עם שני מערכי נתונים של ARC-AGI:
- דוגמה לבעיה שלא נפתרה:
- בעיות רבות אינטואיטיביות מאוד לבני אדם.
- כדי להזין בעיות אלו למודל, הצבעים מקודדים כמספרים ומוזנים כרשת.
- מבחינה טכנית, הפרס טרם נלקח, מכיוון שעלות הפתרון חרגה מהסף והפתרון אינו קוד פתוח.
- התחרות נמשכת, ובעוד מספר שנים, סוג זה של אינטליגנציה יהיה כמעט בחינם.
- העלות של הפעלת הסקה תהיה נמוכה מערך נתוני הפרסום של המשתמשים.
- מחיר o3 המצוטט בבלוג של פרס ARC (שונה למחיר יחסי ל-o1 בתקשורת של OpenAI) חושף פרטים רבים על פעולתו הטכנית של o3.
ארכיטקטורה, עלות ושיטת אימון של o3
צוות ARC AGI שיתף פעולה ישירות עם OpenAI כדי לקבל אומדני מחיר למודל.
התמחור הסופי של o3 לאחר ההשקה הרשמית ב-API עשוי להיות שונה.
צוות ARC-AGI הוסיף דרישה נוספת להגשת פתרונות להערכה פרטית.
במאמר הבלוג, הצוות תיעד את העלות הכוללת ואת העלות לכל משימה, כמדד ל-FLOPs או לשימוש במשאבי חישוב.
זה תואם לכלל בהכרזה של פרס ARC בנוגע ללוח המובילים הציבורי (שאינו קשור לפרס של מיליון דולר):
- 10,000 דולר ארה"ב הם גבול העלות להרצת פתרון של 500 משימות (כולל 400 ממערך ההערכה הציבורי ו-100 ממערך הערכה חצי פרטי חדש).
עלות o3 חרגה בהרבה ממגבלה זו ב-500 המשימות.
פרס ARC הראה שעלות כל שאילתה של o3 הייתה הרבה מעל 1,000 דולר.
הם גם העלו השערות לגבי אופי המודל:
- מטרת ההשערות היא להרגיע את הספקולציות לגבי האם o3 משתמש בטכניקות אימון שונות מ-o1.
- שולה הבהיר שהוא משער:
- "נכון לעכשיו, אנו יכולים רק לשער כיצד o3 עובד. נראה שמנגנון הליבה של o3 הוא חיפוש וביצוע תוכניות בשפה טבעית בתוך מרחב הטוקנים. בעת הבדיקה, המודל מחפש מרחב של שרשראות חשיבה (CoTs) אפשריות, המתארות את השלבים הנדרשים לפתרון המשימה, באופן שעשוי להיות דומה לחיפוש עץ מונטה קרלו בסגנון AlphaZero. במקרה של o3, החיפוש עשוי להיות מונחה על ידי מודל מעריך כלשהו."
ההתייחסות וההנחה לגבי MCTS (חיפוש עץ מונטה קרלו) מטעות, אך מובנות, מכיוון שאנשים רבים הופתעו מהיכולת של o1 ו-o3 להשיג תוצאות באמצעות העברה קדימה יחידה של מודל שפה.
מאמר שפורסם לאחרונה מסביר כיצד זה אפשרי באמצעות אימון למידת חיזוק בקנה מידה גדול.
עובדי OpenAI הדגישו ש-o3 הוא "רק מודל שאומן באמצעות למידת חיזוק".
הניתוח מבוסס על העלויות שתיעד צוות ARC, בשילוב עם התמחור של OpenAI עבור o1 (60 דולר למיליון טוקנים פלט).
על פי גרף התוצאות של פרס ARC, עלות כל שאילתה של o3 מלאה היא כ-5000 דולר.
חלוקת העלות הכוללת במחיר לכל טוקן מעלה שהמודל יצר 80 מיליון טוקנים בכל תשובה, דבר שאינו אפשרי ללא שיפור ניכר במודל עם הקשר ארוך.
ההשערות לגבי ארכיטקטורות חיפוש שונות נובעות מכך.
פרט חשוב במאמר הבלוג של פרס ARC:
- "בחסות OpenAI, ביצענו בדיקות בשתי רמות חישוב, עם גדלי דגימה משתנים: 6 (מצב יעיל) ו-1024 (מצב לא יעיל, פי 172 חישוב)."
לפי SemiAnalysis, o1 pro משתמש בשיטת עקביות עצמית או בבדיקת consensus@N פשוטה, על ידי בחירת התשובה השכיחה ביותר מבין תגובות מקבילות מרובות לאותה שאילתה.
כאן, גודל הדגימה N עשוי להתאים לערך consensus@N, דבר המצביע על כך שתצורת ההערכה של o3 קרובה לתצורת o1 pro הזמינה ללקוחות, כלומר פי 6 חישוב, ותצורה גבוהה במיוחד של פי 1024 חישוב לכל שאלה.
קנה מידה זה של הסקה לא יהיה זמין למשתמשים רגילים במשך זמן רב.
רוב המשתמשים יקבלו רק תוצאה של יצירה אחת עד consensus@10, בהתאם למפרט של הגרסה ה-"מקצועית" של מודל o1.
בהנחה שמחיר מיליון טוקנים פלט נשאר 60 דולר, חלוקה ב-1024 זרמים מעלה שהמודל יוצר כ-78,000 טוקנים בכל תגובה.
o3 נראה גם שהוא נהנה ממודל בסיס גדול יותר, מכיוון שעלות החישוב של o1 גדלה משמעותית, כפי שניתן לראות בכל צירי ה-x של כמות החישוב הלוגריתמית שהוצגה בשידור החי של OpenAI.
שימוש במודל בסיס גדול יותר הופך את המספרים האלה לסבירים לחלוטין, ואינו מרמז על תוספת של אלמנט "חיפוש" נוסף.
הסיפור המרכזי שדחף את ההתקדמות בלמידה עמוקה בשנים האחרונות הוא מציאת תחום עשיר בפוטנציאל וטיפוס עליו בהתמדה.
הגל הראשון הגיע מאימון מוקדם בקנה מידה אינטרנטי.
כעת, OpenAI מצאה כיוון טיפוס חדש על ידי הרחבת אימון למידת חיזוק והסקה עם הקשר ארוך.
בהתחשב בעובדה ש-o3 יצא לאור רק כ-3 חודשים לאחר ש-OpenAI השיקה את o1, ההסבר הפשוט ביותר הוא שהוא משתמש באותה ארכיטקטורה ושיטת אימון, רק בקנה מידה גדול יותר.
אין הוכחות לכך ש-o3 שינה את ארכיטקטורת ההסקה שלו על ידי הוספת חיפוש עץ: כל הטענות הן שמועות.
חוק ההרחבה של ההסקה קובע שדגימה מרובה מאותו זרם פלט יחיד משפרת ביצועים.
השאלה המרכזית היא האם מודל הבסיס של o3 הוא Orion (שם קוד פנימי של OpenAI, כנראה GPT-5), או שמודל הבסיס החדש רק נהנה מ-Orion במהלך האימון.
אם גודל מודל הבסיס גדל פי 2 עד 5, הנתונים תואמים לחלוטין את מחירי ה-API שדווחו מפרס ARC.
עדיין קיימת אי ודאות לגבי הפרטים הספציפיים של o3.
בגרפים שפרסם צוות ARC, o3 סומן כ-"(tuned)", אך טרם פורסמו פרטים נוספים לגביו.
עם זאת, כאשר אנו מתמקדים במגמות ההתקדמות, ברור שמודלים ברמת o1 יהיו קיימים לטווח ארוך.
לבסוף, כדי לשמור על ענווה, הנה דוגמה לפרס ARC ש-o3 לא הצליח לפתור.
אנו עדיין רחוקים, אך יש להתלהב ולצפות שהמציאות של שימוש נרחב במודלים אלה תגיע מוקדם מהצפוי.
ההנחה שהבינה המלאכותית תמשיך להתקדם היא הבטוחה ביותר.
2024: חזרתה של RL
- מוקדם יותר היום, אנתרופיק פרסמה סרטון על תהליך היצירה של אנתרופיק, בהשתתפות מספר מייסדים.
- פרט מפתיע שותף על ידי המייסד השותף ומנכ"ל דריו אמודי:
- "...הסיבה המלאה להרחבת המודלים האלה היא שהאינטליגנציה שלהם עדיין לא מספיקה כדי שנוכל לבצע עליהם RLHF (למידת חיזוק עם משוב אנושי)."
- דריו, כאחד ממייסדי הקונספט המודרני של RLHF, כנראה הבין כבר מזמן שכל ההתקדמות בטכניקות כוונון עומדת להגיע.
- השקפה זו על הפוטנציאל של RLHF רחבה ועמוקה יותר מההבנה של רוב העוסקים בתחום.
- שנת 2024 היא ללא ספק השנה שבה למידת חיזוק (RL) ושיטות קשורות ביססו את עצמן מחדש כליבת הבינה המלאכותית.
- תהליך כתיבת מאמר זה שכנע אותי לאמן מודל שפה מבוסס הסקה דומה בשנת 2025.
- התחושה היא שבשנת 2024, אימון מוקדם סטנדרטי הפך לדרישת בסיס בתעשייה עבור חברות טכנולוגיה.
- ניתן לצפות שמודלים בסגנון o1 יהפכו לכלי ברירת המחדל בארגז הכלים של הבינה המלאכותית במשך זמן רב.
- אני מצפה בקוצר רוח לאמץ את תפיסת העולם החדשה הזו וללמוד באופן אישי כיצד פועל אימון המודלים הללו.