Published on

ביצועי ChatGPT יורדים מחקר סטנפורד וברקלי

מחברים
  • avatar
    שם
    Ajax
    Twitter

תנודות בביצועים של מודלי שפה

מחקר חדש שפורסם בכתב העת Harvard Data Science Review, חשף תנודות משמעותיות בביצועים של מודלי השפה GPT-3.5 ו-GPT-4 לאורך שלושה חודשים. המחקר, שנערך על ידי חוקרים מאוניברסיטת סטנפורד ואוניברסיטת קליפורניה בברקלי, בחן את המודלים על פני שבע משימות שונות.

  • פתרון בעיות מתמטיות
  • יצירת קוד
  • שאלות הדורשות ידע מורכב
  • מבחן רישוי רפואי בארה'ב
  • שאלות הדורשות ידע מורכב (חזרה)

הממצאים הראו שינויים משמעותיים בביצועים של שני המודלים בתקופה זו. לדוגמה, הדיוק של GPT-4 בזיהוי מספרים ראשוניים ירד מ-84% במרץ ל-51% ביוני. ירידה זו יוחסה בחלקה להיחלשות ביכולת המודל לעקוב אחר הנחיות "שרשרת מחשבה". מעניין לציין כי GPT-3.5 הראה שיפור במשימה ספציפית זו באותה תקופה.

שינויים נוספים שנצפו

בנוסף לירידה בדיוק בזיהוי מספרים ראשוניים, המחקר חשף שינויים נוספים בביצועי המודלים:

  • ירידה בנכונות GPT-4 לענות על שאלות רגישות וסקרים ביוני.
  • שיפור ביכולת GPT-4 לפתור בעיות חשיבה מרובות שלבים, בעוד GPT-3.5 הראה ירידה במשימות כאלה.
  • עלייה בשגיאות עיצוב בקוד שנוצר על ידי שני המודלים.
  • ירידה ביכולת GPT-4 לעקוב אחר הוראות משתמשים.

מתודולוגיית ההערכה

החוקרים העריכו את GPT-3.5 ו-GPT-4 על בסיס עקרונות של גיוון וייצוג. הבדיקות נערכו על פני שבעה תחומים עיקריים:

  1. בעיות מתמטיות
  2. נושאים רגישים/מסוכנים
  3. סקרים
  4. שאלות הדורשות ידע מורכב
  5. יצירת קוד
  6. מבחן רישוי רפואי בארה"ב
  7. חשיבה ויזואלית

כדי להבין טוב יותר את השינויים ההתנהגותיים, הצוות פיתח מדד חדש המתמקד במעקב אחר הוראות שאינו תלוי משימה. מדד זה כלל ארבעה סוגים של הוראות נפוצות: חילוץ תשובות, הפסקת התנצלויות, הימנעות ממילים ספציפיות וסינון תוכן.

מעקב אחר הוראות

סדרת בדיקות זו נועדה להעריך את יכולתם של המודלים לעקוב אחר הוראות באופן עצמאי, ללא קשר למיומנויות או ידע ספציפיים. במרץ, GPT-4 הצליח לעקוב היטב אחר רוב ההוראות הבודדות, אך ביוני הוא החל להתעלם מהן. לדוגמה, שיעור הציות להוראות חילוץ תשובות ירד מ-99.5% לכמעט אפס. נאמנות להוראות סינון תוכן ירדה גם היא מ-74.0% ל-19.0%.

מדדי ביצועים

כדי לתפוס את ביצועי המודלים במדויק, הצוות קבע מדדי ביצועים ראשוניים ומשניים לכל משימה. לדוגמה:

  • דיוק שימש כמדד העיקרי לבעיות מתמטיקה ולמבחן רישוי רפואי בארה"ב.
  • שיעור הקוד הפלט הניתן להרצה היה המדד העיקרי ליצירת קוד.

ביצועי ChatGPT בארבעה סוגי הוראות

חילוץ תשובות

הוראה זו מחייבת את המודל לאתר במדויק ולזהות באופן מפורש את התשובה בתוך טקסט או שאלה נתונים. GPT-4 הראה עמידה גבוהה בהוראה מסוג זה במרץ, כאשר כמעט 99.5% מהשאילתות קיבלו תשובות מעוצבות כהלכה. עם זאת, ביוני, שיעור זה צנח, מה שמצביע על ירידה ביכולת המודל להתמודד עם פורמטים ברורים של הוראות.

הפסקת התנצלויות

הנחיה זו בודקת את יכולתו של המודל להימנע משימוש בהתנצלויות או בהגדרה עצמית כבינה מלאכותית כאשר מתבקש במפורש שלא לעשות זאת. במרץ, GPT-4 בדרך כלל עקב אחר הוראה זו, אך ביוני, הוא הפר אותה לעתים קרובות, גם כאשר הונחה במפורש.

הימנעות ממילים ספציפיות

הוראה זו בודקת את הגמישות של המודל ותשומת הלב לפרטים, במיוחד בעמידה במגבלות ספציפיות. הירידה ממרץ ליוני מעידה על הפחתה ביכולת GPT-4 להתמודד עם הוראות מורכבות.

סינון תוכן

הוראה זו מחייבת את המודל להחריג נושאים ספציפיים או מידע רגיש. במרץ, GPT-4 דבק במידה רבה בדרישות סינון אלה, אך ביוני, יכולת הסינון שלו פחתה משמעותית, כאשר רק כ-19% מהנושאים הרגישים טופלו כהלכה.

השלכות המחקר

החוקרים ציינו כי מכיוון ש-GPT-3.5 ו-GPT-4 הם מודלים בקוד סגור, OpenAI אינה חושפת את נתוני ההדרכה והתהליכים שלה. חוסר שקיפות זה אומר שלעתים קרובות משתמשים אינם מודעים לשינויים המתרחשים בכל עדכון מרכזי. מחקר זה יכול לסייע למפתחים ולמשתמשים להבין את הביצועים והדינמיקה ההתנהגותית של ChatGPT, דבר חיוני להבטחת בטיחות המודל ואותנטיות התוכן. המחקר מדגיש את האתגרים של שמירה על עקביות ואמינות של מודלים אלה, במיוחד בסביבות המתפתחות במהירות.