- Published on
חוק הצפיפות של מודלים גדולים: פרספקטיבה חדשה מעבר לחוקי קנה המידה
מבוא
צוות מאוניברסיטת צינגואה, בראשותו של פרופסור ליו ג'י-יואן, הציע את "חוק הצפיפות" עבור מודלים גדולים, הטוען כי צפיפות היכולת של המודל מכפילה את עצמה בערך כל 100 ימים. חוק זה, בדומה לחוק מור בתעשיית השבבים, מתמקד ביעילות הפרמטרים של המודל ולא רק בקנה המידה שלו.
רקע והנעה
חוקי קנה המידה המסורתיים מתארים כיצד ביצועי המודל משתפרים עם הגדלת הגודל (פרמטרים) ונתוני האימון. "חוק הצפיפות" החדש מציג פרספקטיבה שונה, המדגישה את השימוש האפקטיבי בפרמטרים ואת השיפור המהיר ביעילות המודל לאורך זמן. צוות המחקר הציג את המושג "צפיפות יכולת" כדי למדוד את היחס בין פרמטרים אפקטיביים לפרמטרים בפועל.
מושגי מפתח
- צפיפות יכולת: מוגדרת כיחס בין "פרמטרים אפקטיביים" למספר הפרמטרים בפועל במודל.
- פרמטרים אפקטיביים: מספר הפרמטרים המינימלי שמודל ייחוס צריך כדי להשיג את אותם ביצועים כמו מודל היעד.
- מודל ייחוס: מודל המשמש כאמת מידה לקביעת ספירת הפרמטרים האפקטיבית של מודלים אחרים.
- הערכת אובדן: תהליך של התאמת הקשר בין פרמטרים של מודל לבין אובדן באמצעות סדרה של מודלי ייחוס.
- הערכת ביצועים: תהליך של יצירת מיפוי מלא בין אובדן לביצועים, תוך התחשבות בהופעתן של יכולות חדשות במודלים.
חוק הצפיפות
צפיפות היכולת המקסימלית של מודלי שפה גדולים (LLM) גדלה באופן אקספוננציאלי לאורך זמן. הנוסחה לצמיחה זו מובעת כ: ln(ρmax) = At + B, כאשר ρmax היא צפיפות היכולת המקסימלית בזמן t. חוק זה מצביע על כך שניתן להשיג את הביצועים של מודלים מתקדמים עם חצי מהפרמטרים כל 3.3 חודשים (בערך 100 ימים).
השלכות של חוק הצפיפות
- עלויות הסקה מופחתות: עלויות ההסקה של המודל פוחתות באופן אקספוננציאלי לאורך זמן. לדוגמה, העלות למיליון אסימונים ירדה באופן משמעותי מ-GPT-3.5 ל-Gemini-1.5-Flash.
- צמיחה מואצת של צפיפות היכולת: מאז שחרור ChatGPT, קצב הגידול בצפיפות היכולת הואץ.
- התכנסות של חוק מור וחוק הצפיפות: ההצטלבות של צפיפות השבבים הגוברת (חוק מור) וצפיפות יכולת המודל (חוק הצפיפות) מצביעה על הפוטנציאל לבינה מלאכותית רבת עוצמה במכשירים.
- מגבלות של דחיסת מודל: טכניקות דחיסת מודל בלבד עשויות שלא לשפר את צפיפות היכולת. למעשה, לרוב המודלים הדחוסים יש צפיפות נמוכה יותר מעמיתיהם המקוריים.
- מחזורי חיים מקוצרים של מודל: הגידול המהיר בצפיפות היכולת פירושו שמשך החיים האפקטיבי של מודלים בעלי ביצועים גבוהים הופך לקצר יותר, מה שמוביל לחלון קצר לרווחיות.
ההקשר הרחב יותר
חוק הצפיפות הוא חלק ממגמה גדולה יותר שבה המנועים המרכזיים של עידן הבינה המלאכותית - חשמל, כוח מחשוב ואינטליגנציה - חווים כולם צמיחה מהירה בצפיפות.
- צפיפות האנרגיה של הסוללה גדלה פי ארבעה ב-20 השנים האחרונות.
- צפיפות הטרנזיסטורים של השבבים מכפילה את עצמה כל 18 חודשים (חוק מור).
- צפיפות היכולת של מודל הבינה המלאכותית מכפילה את עצמה כל 100 ימים.
מגמה זו מצביעה על מעבר לעבר בינה מלאכותית יעילה יותר, מה שמפחית את הביקוש לאנרגיה ומשאבי מחשוב. העלייה של מחשוב קצה ומודלי בינה מלאכותית מקומיים צפויה, מה שמוביל לעתיד שבו הבינה המלאכותית נמצאת בכל מקום.
נקודות נוספות
- צוות המחקר השתמש ב-29 מודלים גדולים בקוד פתוח בשימוש נרחב כדי לנתח את מגמת צפיפות היכולת.
- המחקר מדגיש כי הסתמכות בלבד על אלגוריתמי דחיסת מודל עשויה שלא להספיק כדי לשפר את צפיפות היכולת של המודל.
- מאמר המחקר זמין בכתובת: Densing Law of LLMs
המחקר מדגיש את החשיבות של פיתוח מודלים יעילים יותר ולא רק מודלים גדולים יותר. הוא גם מצביע על כך שחוק הצפיפות עשוי להוביל לשינויים משמעותיים בתעשיית הבינה המלאכותית, כמו עלויות נמוכות יותר, עיבוד מקומי יותר ופיתוח מהיר יותר של מודלים.
ניתוח מעמיק של מושגים מרכזיים
צפיפות יכולת
המושג צפיפות יכולת הוא ליבת "חוק הצפיפות" החדש, המציע דרך חדשה להעריך את יעילותם של מודלים של למידת מכונה. בניגוד לגישה המסורתית המתמקדת במספר הפרמטרים הכולל של המודל, צפיפות היכולת מתמקדת בשימוש האפקטיבי של הפרמטרים הללו. זהו מדד שנועד ללכוד כמה טוב מודל משתמש במשאבים שלו כדי להשיג רמת ביצועים מסוימת.
צפיפות היכולת מחושבת כיחס בין "פרמטרים אפקטיביים" למספר הפרמטרים בפועל. פרמטרים אפקטיביים מייצגים את מספר הפרמטרים המינימלי שנדרש למודל ייחוס כדי להשיג את אותם ביצועים כמו מודל היעד. זהו מושג מופשט הדורש השוואה עם מודלי ייחוס.
פרמטרים אפקטיביים
המושג פרמטרים אפקטיביים הוא קריטי להבנת צפיפות היכולת. הוא מתייחס למספר הפרמטרים המינימלי שנדרש למודל ייחוס כדי להשיג את אותם ביצועים כמו מודל היעד. ניתן להמחיש מושג זה באמצעות דוגמה. נניח שיש לנו שני מודלים: מודל A עם 10 מיליארד פרמטרים ומודל B עם 5 מיליארד פרמטרים. אם מודל B יכול להשיג את אותם ביצועים כמו מודל A, אז הפרמטרים האפקטיביים של מודל A הם 5 מיליארד. זה מצביע על כך שמודל A אינו משתמש ביעילות בכל הפרמטרים שלו.
הערכת הפרמטרים האפקטיביים מחייבת שימוש במודלי ייחוס. מודלי הייחוס משמשים כנקודת השוואה כדי לקבוע כמה פרמטרים נדרשים כדי להשיג רמת ביצועים מסוימת. תהליך זה כולל התאמת מודלי ייחוס שונים לביצועים של מודל היעד.
מודל ייחוס
מודל ייחוס הוא אבן הפינה של חישוב צפיפות היכולת. זהו מודל המשמש כאמת מידה לקביעת מספר הפרמטרים האפקטיביים של מודלים אחרים. בחירת מודל הייחוס היא קריטית, שכן היא יכולה להשפיע באופן משמעותי על צפיפות היכולת המחושבת.
מודל הייחוס צריך להיות מודל מוגדר היטב ובעל ביצועים ידועים. לעתים קרובות, מודלים קטנים ומוגדרים היטב משמשים כמודלי ייחוס, מכיוון שקל יותר להשוות אותם למודלים גדולים ומורכבים יותר.
הערכת אובדן וביצועים
הערכת האובדן והביצועים הם שני תהליכים מרכזיים בחישוב צפיפות היכולת. הערכת האובדן כוללת התאמת הקשר בין פרמטרים של מודל לבין אובדן באמצעות סדרה של מודלי ייחוס. האובדן הוא מדד לכמה טוב המודל מתאים לנתוני האימון.
הערכת הביצועים היא תהליך של יצירת מיפוי מלא בין אובדן לביצועים, תוך התחשבות בהופעתן של יכולות חדשות במודלים. תהליך זה מורכב, שכן ביצועים אינם רק פונקציה של אובדן. הוא גם תלוי ביכולות שהמודל רכש במהלך האימון.
השפעת חוק הצפיפות על תעשיית הבינה המלאכותית
עלויות הסקה מופחתות
אחת ההשלכות המשמעותיות ביותר של חוק הצפיפות היא הפחתה משמעותית בעלויות ההסקה. מכיוון שניתן להשיג את אותם ביצועים עם פחות פרמטרים, עלויות ההסקה יורדות באופן אקספוננציאלי לאורך זמן. זה הופך את הבינה המלאכותית לנגישה יותר ויעילה יותר.
צמיחה מואצת של צפיפות היכולת
מאז שחרור ChatGPT, קצב הגידול בצפיפות היכולת הואץ. זה מצביע על כך שהחדשנות בבינה המלאכותית מתרחשת בקצב מהיר יותר ממה שחשבו בעבר. זה יוביל לשיפורים מהירים יותר ביכולות הבינה המלאכותית.
התכנסות של חוק מור וחוק הצפיפות
ההצטלבות של חוק מור וחוק הצפיפות מצביעה על הפוטנציאל לבינה מלאכותית רבת עוצמה במכשירים. מכיוון שצפיפות השבבים ממשיכה לגדול וצפיפות היכולת של מודלים ממשיכה לגדול, אנו צפויים לראות עלייה בשימוש במודלים מקומיים של בינה מלאכותית.
מגבלות של דחיסת מודל
המחקר מדגיש כי טכניקות דחיסת מודל בלבד עשויות שלא לשפר את צפיפות היכולת. למעשה, לרוב המודלים הדחוסים יש צפיפות נמוכה יותר מעמיתיהם המקוריים. זה מצביע על כך שדחיסה בלבד אינה מספיקה כדי להגיע למודלים יעילים יותר.
מחזורי חיים מקוצרים של מודל
הגידול המהיר בצפיפות היכולת פירושו שמשך החיים האפקטיבי של מודלים בעלי ביצועים גבוהים הופך לקצר יותר. זה יוצר אתגרים לחברות המנסות להרוויח מהמודלים שלהם.
ההשלכות הרחבות יותר של חוק הצפיפות
חוק הצפיפות הוא חלק ממגמה גדולה יותר שבה המנועים המרכזיים של עידן הבינה המלאכותית חווים צמיחה מהירה בצפיפות. זה כולל את צפיפות האנרגיה של הסוללה, צפיפות הטרנזיסטורים של השבבים וצפיפות היכולת של מודלים של בינה מלאכותית.
מגמה זו מצביעה על מעבר לעבר בינה מלאכותית יעילה יותר, מה שמפחית את הביקוש לאנרגיה ומשאבי מחשוב. זה יוביל לעלייה במחשוב קצה ומודלים מקומיים של בינה מלאכותית.
סיכום
"חוק הצפיפות" מציג פרספקטיבה חדשה על פיתוח מודלים של בינה מלאכותית, תוך התמקדות ביעילות הפרמטרים ולא רק בקנה המידה. הוא מצביע על שיפורים מהירים ביכולות המודלים, עלויות הסקה מופחתות ופוטנציאל לבינה מלאכותית מקומית. המחקר מדגיש את החשיבות של פיתוח מודלים יעילים יותר, ולא רק מודלים גדולים יותר.