- Published on
o1 אינו מודל צ'אט טיפוסי - אלטמן וברוקמן צופים
o1: לא מודל צ'אט טיפוסי
המאמר דן בהתעוררות סביב מודל ה-o1, ומבהיר שהוא לא תוכנן להיות מודל צ'אט, למרות שמשתמשים רבים התייחסו אליו כך בתחילה. גילוי זה הגיע לאחר פוסט בבלוג שכותרתו "o1 אינו מודל צ'אט (וזה העניין)", שזכה לתהודה, ואף תפס את תשומת ליבם של מנכ'ל OpenAI סם אלטמן והנשיא גרג ברוקמן.
תפיסות שגויות ותסכולים
בן הילאק, לשעבר מהנדס תוכנה בספייסX ומעצב אינטראקציה עבור Apple VisionOS, שיתף את חווייתו המתסכלת עם o1. הוא מצא את התגובות שלו איטיות, לעיתים סותרות ומלאות בתרשימי ארכיטקטורה ורשימות יתרונות וחסרונות שלא התבקשו. תגובתו הראשונית של הילאק הייתה ש-o1 הוא פשוט "זבל".
- הילאק חווה זמני המתנה של 5 דקות לתגובות.
- התגובות היו לעתים קרובות סותרות את עצמן ולא הגיוניות.
- המודל סיפק דיאגרמות ורשימות שלא התבקשו.
התסכול שלו הוביל לפוסטים ברשתות החברתיות שהביעו את אכזבתו, וציין ש-o1 pro היה "ממש גרוע", והפלט שלו היה "כמעט ג'יבריש". הוא נתן את הדוגמה של בקשת ייעוץ לשיפור קוד, רק כדי שהמודל יציע מיזוג קבצים, יספק קוד שלא מיזג קבצים, ולאחר מכן יקפוץ למסקנות לא קשורות.
שינוי בפרספקטיבה
החוויה של הילאק לא הייתה אוניברסלית. חלק מהמשתמשים מצאו את o1 יעיל מאוד, מה שהוביל לדיונים נוספים. באמצעות אינטראקציות אלו, הילאק הבין את טעותו: הוא השתמש ב-o1 כמודל צ'אט כאשר הוא לא נועד לתפקד ככזה.
שינוי פרספקטיבה זה התקבל בברכה על ידי אלטמן, שציין ש"מעניין לצפות בשינוי בגישות של אנשים כשהם לומדים כיצד להשתמש ב-o1 (כולל גרסת הפרו)". גרג ברוקמן הדהד זאת באומרו ש-o1 הוא סוג אחר של מודל ודורש גישה שונה לביצועים מיטביים.
o1: מחולל דוחות
המאמר מצביע על כך שבמקום מודל צ'אט, יש לראות ב-o1 "מחולל דוחות". בהינתן הקשר מספיק ודרישות פלט ברורות, o1 יכול לספק פתרונות ביעילות. המפתח טמון באופן השימוש במודל.
מפתרונות קצרים לתיאורים מפורטים
בעת שימוש במודלי צ'אט טיפוסיים, משתמשים מתחילים לעתים קרובות בשאלות פשוטות ומוסיפים הקשר לפי הצורך, תוך שהם עוסקים באינטראקציות חוזרות ונשנות. עם זאת, o1 אינו מחפש הקשר נוסף. במקום זאת, משתמשים צריכים לספק הרבה הקשר מראש, המתואר כ"טון" של מידע, או בערך פי עשרה מההקשר שהייתם משתמשים בו עבור הנחיה סטנדרטית.
- ספקו את כל הפרטים של פתרונות שניסיתם.
- כללו דמפים מלאים של סכימת מסד הנתונים.
- הסבירו את העסק הספציפי של החברה, את קנה המידה ואת המינוח.
מומלץ להתייחס ל-o1 כמו לעובד חדש, ולספק את כל המידע הדרוש מההתחלה.
התמקדו בפלט הרצוי
לאחר מתן הקשר נרחב, על המשתמשים להגדיר בבירור את הפלט הרצוי. בניגוד למודלים אחרים שבהם משתמשים עשויים לציין את הדמות או את תהליך החשיבה, עם o1, עליכם להתמקד אך ורק ב"מה" שאתם רוצים, ולא ב"איך" המודל צריך לעשות זאת. זה מאפשר ל-o1 לתכנן ולבצע באופן עצמאי את השלבים הנדרשים, מה שמוביל לתוצאות מהירות ויעילות יותר.
חוזקות וחולשות של o1
o1 מצטיין בכמה תחומים:
- עיבוד קבצים שלמים: הוא יכול להתמודד עם בלוקים גדולים של קוד והקשר נרחב, ולעיתים קרובות משלים קבצים שלמים עם מינימום שגיאות.
- הפחתת הזיות: o1 מדויק בתחומים כמו שפות שאילתה מותאמות אישית (למשל, ClickHouse ו-New Relic), בעוד שמודלים אחרים עשויים לערבב תחביר.
- אבחון רפואי: o1 יכול להציע אבחנות ראשוניות מדויקות באופן מפתיע על סמך תמונות ותיאורים.
- הסברת מושגים: הוא מיומן בהסברת מושגים הנדסיים מורכבים באמצעות דוגמאות.
- יצירת תוכניות אדריכליות: o1 יכול ליצור מספר תוכניות, להשוות אותן ולרשום יתרונות וחסרונות.
- הערכה: הוא מראה הבטחה ככלי יעיל להערכת תוצאות.
עם זאת, ל-o1 יש גם מגבלות:
- כתיבה בסגנונות ספציפיים: הוא נוטה לייצר דוחות בסגנון אקדמי או תאגידי ומתקשה להסתגל לטונים ספציפיים.
- בניית יישומים שלמים: למרות שהוא מיומן ביצירת קבצים שלמים, הוא לא יכול לבנות יישום SaaS מלא באמצעות איטרציה. עם זאת, הוא יכול להשלים תכונות שלמות, במיוחד פונקציונליות קצה או פשוטות של קצה אחורי.
חשיבות העיכוב
המאמר מציין כי עיכוב משנה באופן מהותי את תפיסתנו לגבי מוצרים, תוך שהוא מצטט דוגמאות כמו דוא"ל לעומת הודעות טקסט, והודעות קוליות לעומת שיחות טלפון. הילאק משווה את o1 לדוא"ל ולא למודל צ'אט, בשל העיכוב בתגובותיו. עיכוב זה מאפשר סוגים חדשים של מוצרים המרוויחים ממודיעין רקע ארוך טווח עם חביון גבוה. השאלה אז הופכת להיות: עבור אילו משימות אנשים מוכנים לחכות 5 דקות, שעה, יום או אפילו 3-5 ימי עסקים?
חשוב לציין כי o1-preview ו-o1-mini תומכים בסטרימינג אך לא ביצירה מובנית או בהנחיות מערכת, בעוד ש-o1 תומך ביצירה מובנית ובהנחיות מערכת אך לא בסטרימינג. הבנת ההבדלים הללו תהיה חיונית למפתחים בעת תכנון מוצרים בשנת 2025.