Published on

גילוי פרמטרי מודל OpenAI: מאמר מיקרוסופט חושף את גודל GPT4o

מחברים
  • avatar
    שם
    Ajax
    Twitter

פרמטרי מודל OpenAI נחשפים

בקהילת הטכנולוגיה, גודל הפרמטרים של מודלי שפה גדולים (LLM) נשמר בסודיות גבוהה. עם זאת, לאחרונה, מאמר רפואי שפורסם בשיתוף פעולה בין מיקרוסופט ואוניברסיטת וושינגטון חשף באופן בלתי צפוי מידע על פרמטרים של מספר מודלים של OpenAI, מה שגרר עניין רב.

חשיפת הפרמטרים

המידע המרכזי שנחשף במאמר כולל:

  • GPT-4: כ-1.76 טריליון פרמטרים
  • GPT-4o: כ-200 מיליארד פרמטרים
  • GPT-4o mini: כ-8 מיליארד פרמטרים
  • o1-preview: כ-300 מיליארד פרמטרים
  • o1-mini: כ-100 מיליארד פרמטרים
  • Claude 3.5 Sonnet: כ-175 מיליארד פרמטרים

חשוב לציין שהחוקרים הצהירו כי פרמטרים אלו הם הערכות.

סדרת GPT-4o מעוררת דיון

באופן מפתיע, כמות הפרמטרים בסדרת GPT-4o נמוכה בהרבה מהצפוי, במיוחד בגרסת ה-mini עם 8 מיליארד פרמטרים בלבד. משתמשים ברשת שיערו כי GPT-4o mini עשוי להשתמש בארכיטקטורת מודל מומחים מעורב (MoE), כאשר הפרמטרים הפעילים בפועל הם 8 מיליארד, אך סך הפרמטרים של המודל עשוי להגיע ל-400 מיליארד. ארכיטקטורה זו מאפשרת למודלים קטנים ללמוד יותר ידע תוך שמירה על מהירות פעולה.

השוואת פרמטרי Claude 3.5 Sonnet

בנוסף, היו הערות שציינו כי כמות הפרמטרים של Claude 3.5 Sonnet שווה לזו של GPT-3 davinci, מה שמעורר מחשבות נוספות לגבי הקשר בין הביצועים לגודל של מודלים שונים.

MEDEC: תקן חדש לזיהוי שגיאות רפואיות

המאמר שחשף את הפרמטרים, למעשה עוסק בבסיס הערכה בשם MEDEC1, שמטרתו להעריך את הביצועים של מודלי שפה גדולים במשימות של זיהוי ותיקון שגיאות רפואיות. בסיס זה מתמקד בשגיאות בהערות קליניות, וכולל חמישה היבטים: אבחון, ניהול, טיפול, טיפול תרופתי וגורמי מחלה.

מקורות וייחודיות הנתונים

בסיס הנתונים MEDEC כולל 488 הערות קליניות משלוש מערכות בתי חולים בארה"ב, בסך הכל 3,848 טקסטים קליניים. נתונים אלו לא נחשפו בעבר למודלי שפה גדולים, מה שמבטיח את האמינות והאותנטיות של ההערכה. כיום, בסיס הנתונים משמש במשימת MEDIQA-CORR להערכת הביצועים של 17 מערכות משתתפות.

בדיקות ותוצאות

צוות המחקר השתמש בבסיס הנתונים MEDEC לבדיקת מגוון מודלים מתקדמים, כולל o1-preview, GPT-4, Claude 3.5 Sonnet ו-Gemini 2.0 Flash. בנוסף, הם הזמינו שני רופאים מקצועיים להשתתף באותה משימת זיהוי שגיאות לצורך השוואה בין אדם למכונה.

התוצאות הראו כי למרות שמודלי שפה גדולים הראו ביצועים טובים בזיהוי ותיקון שגיאות רפואיות, עדיין יש פער בינם לבין רופאים אנושיים. זה מצביע על כך ש-MEDEC הוא בסיס הערכה מאתגר.

עיקרי המאמר: יישומים ואתגרים של LLM בתחום הרפואה

המאמר מציין כי סקר שנערך במוסדות רפואיים בארה"ב הראה כי אחד מכל חמישה מטופלים שקוראים הערות קליניות מדווח על גילוי שגיאות. מתוך שגיאות אלו, 40% נחשבות חמורות למדי, והשגיאות הנפוצות ביותר קשורות לאבחון.

יישומים וסיכונים של LLM במסמכים רפואיים

ככל שיותר משימות של מסמכים רפואיים (כגון יצירת הערות קליניות) מבוצעות על ידי מודלי שפה גדולים, חשוב להבטיח את הדיוק והבטיחות של המידע שהם מפיקים. LLM עלולים לייצר הזיות, להפיק תוכן שגוי או מומצא, מה שיכול להשפיע באופן חמור על החלטות קליניות.

חשיבות בסיס ההערכה MEDEC

כדי לפתור בעיות אלו ולהבטיח את הבטיחות של LLM ביצירת תוכן רפואי, נדרשות שיטות אימות קפדניות. הצגת בסיס ההערכה MEDEC נועדה להעריך את יכולת המודלים לזהות ולתקן שגיאות רפואיות בטקסטים קליניים.

בניית בסיס הנתונים MEDEC

בסיס הנתונים MEDEC כולל 3,848 טקסטים קליניים מתחומים רפואיים שונים, שאותם סימנו 8 אנשי סימון רפואיים. בסיס הנתונים מכסה חמישה סוגי שגיאות:

  • אבחון (Diagnosis): האבחון שסופק אינו מדויק.
  • ניהול (Management): הצעדים הבאים בניהול אינם מדויקים.
  • טיפול תרופתי (Pharmacotherapy): הטיפול התרופתי המומלץ אינו מדויק.
  • טיפול (Treatment): תוכנית הטיפול המומלצת אינה מדויקת.
  • גורם מחלה (Causal Organism): הגורם המזהם או הפתוגן שצוין אינו מדויק.

בחירת סוגי שגיאות אלו מבוססת על סוגי השאלות הנפוצים ביותר בבחינות של ועדות רפואיות.

שיטות יצירת נתונים

בניית בסיס הנתונים נעשתה בשתי שיטות:

  1. שיטה מס' 1 (MS): השתמשה בשאלות מבחינות של ועדות רפואיות מתוך אוסף MedQA, כאשר אנשי סימון עם רקע רפואי החדירו תשובות שגויות לטקסטים של תרחישים.
  2. שיטה מס' 2 (UW): השתמשה בבסיס נתונים של הערות קליניות אמיתיות משלוש מערכות בתי חולים של אוניברסיטת וושינגטון, כאשר צוות סטודנטים לרפואה החדיר שגיאות באופן ידני לרישומים.

שתי השיטות עברו בקרת איכות קפדנית כדי להבטיח את הדיוק והאמינות של הנתונים.

שיטות לזיהוי ותיקון שגיאות רפואיות

כדי להעריך את ביצועי המודלים במשימות של זיהוי ותיקון שגיאות רפואיות, החוקרים חילקו את התהליך לשלוש משימות משנה:

  • משימת משנה A: חיזוי סימן שגיאה (0: ללא שגיאה; 1: קיימת שגיאה).
  • משימת משנה B: חילוץ המשפטים המכילים שגיאות.
  • משימת משנה C: יצירת תוכן מתוקן למשפטים המכילים שגיאות.

צוות המחקר בנה פתרונות מבוססי LLM והשתמש בשני סוגים שונים של הנחיות ליצירת הפלט הנדרש.

ניסויים ותוצאות

מודלי שפה

החוקרים ביצעו ניסויים על מגוון מודלי שפה, כולל Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini ו-o1-preview.

ניתוח תוצאות הניסוי

תוצאות הניסוי הראו כי Claude 3.5 Sonnet הציג ביצועים טובים בזיהוי סימני שגיאות ובזיהוי משפטים שגויים. o1-preview הראה ביצועים מיטביים בתיקון שגיאות. עם זאת, כל המודלים עדיין לא הצליחו להשתוות לרופאים אנושיים בזיהוי ותיקון שגיאות רפואיות.

התוצאות גם הצביעו על כך שלמודלים יש בעיות בדיוק, ובמקרים רבים הם חזו יתר על המידה את קיום השגיאות (כלומר, ייצרו הזיות). בנוסף, היה פער בדירוג בין ביצועי הסיווג לביצועי יצירת תיקון שגיאות.

ניתוח סוגי שגיאות

בזיהוי ותיקון סוגי שגיאות שונים, o1-preview הציג שיעורי היזכרות גבוהים יותר בזיהוי סימני שגיאות ובזיהוי משפטים, אך רופאים הציגו דיוק טוב יותר.

כיווני מחקר עתידיים

החוקרים ציינו כי כיווני המחקר הבאים כוללים הוספת דוגמאות נוספות להנחיות ואופטימיזציה שלהן, כדי לשפר עוד יותר את ביצועי המודלים בזיהוי ותיקון שגיאות רפואיות.