Published on

ארכיטקטורת טיטאן של גוגל פורצת את צוואר בקבוק הזיכרון של טרנספורמר

מחברים
  • avatar
    שם
    Ajax
    Twitter

הכרת טיטאן: ארכיטקטורה חדשה מגוגל

עולם הטכנולוגיה גועש סביב טיטאן, ארכיטקטורה חדשה שצצה מגוגל. היא נועדה לאתגר את המגבלות של מודלי טרנספורמר, במיוחד באופן שבו הם מטפלים בזיכרון. הארכיטקטורה החדשה זוכה לתשומת לב משמעותית כיורשת פוטנציאלית לטרנספורמר, במיוחד בהתחשב בפיתוחה על ידי צוות בתוך גוגל.

אתגר הזיכרון במודלים קיימים

מודלים מסורתיים כמו LSTM וטרנספורמר, למרות החדשנות שלהם, מתמודדים עם אתגרים בסימולציה של זיכרון דמוי אדם. אתגרים אלה כוללים:

  • קיבולת מוגבלת: נתונים נדחסים לעתים קרובות למצב נסתר בגודל קבוע, מה שמגביל את כמות המידע שניתן לשמור.
  • תקורה חישובית: למרות היכולת ללכוד תלות ארוכת טווח, העלות החישובית גדלה באופן ריבועי עם אורך הרצף, מה שהופך אותה ללא יעילה עבור רצפים ארוכים מאוד.
  • הסתמכות יתר על נתוני אימון: שינון פשוט של נתוני אימון לא תמיד עוזר ביישום בעולם האמיתי, כאשר נתוני הבדיקה יכולים לחרוג מהתפלגות האימון.

הגישה של טיטאן: מודול זיכרון בהשראת נוירו

צוות טיטאן נקט גישה שונה, וביקש לקודד מידע לתוך הפרמטרים של רשת עצבית. הם פיתחו מטא-מודל מקוון שנועד ללמוד כיצד לזכור ולשכוח נתונים ספציפיים במהלך הבדיקה. מודל זה שואב השראה מעקרונות נוירו-פסיכולוגיים, ומשלב את המרכיבים העיקריים הבאים:

  • הפתעה כטריגר: אירועים בלתי צפויים נזכרים ביתר קלות. ה"הפתעה" נמדדת על ידי הגרדיאנט של הקלט למודול הזיכרון. ככל שהגרדיאנט גדול יותר, כך הקלט בלתי צפוי יותר.
  • מנגנוני מומנטום ושכחה: מנגנון מומנטום צובר הפתעות קצרות טווח לזיכרון ארוך טווח, בעוד שמנגנון שכחה מוחק זיכרונות ישנים, ומונע הצפת זיכרון.
  • זיכרון מבוסס Multi-Layer Perceptron (MLP): מודול הזיכרון מורכב ממספר שכבות MLP, מה שמאפשר לו לאחסן הפשטות עמוקות של נתונים, מה שהופך אותו לחזק יותר מזיכרונות מסורתיים מבוססי מטריצה.

גישת המטא-למידה המקוונת הזו עוזרת למודל להתמקד בלמידה כיצד להסתגל לנתונים חדשים, ולא רק לשנן נתוני אימון. המודול מתוכנן גם לחישוב מקבילי, מה שמשפר את היעילות שלו.

שילוב מודול הזיכרון בארכיטקטורות למידה עמוקה

צוות המחקר של טיטאן הציע שלושה וריאציות לשילוב מודול הזיכרון שלהם בארכיטקטורות למידה עמוקה:

  1. MAC (זיכרון כהקשר): שיטה זו משלבת זיכרון ארוך טווח ומתמשך (המקודד ידע משימה) כהקשר שמוזן למנגנון הקשב.
  2. MAG (זיכרון כשער): גישה זו משתמשת במיזוג משולב של מודול הזיכרון עם מנגנון קשב של חלון הזזה על פני שני ענפים.
  3. MAL (זיכרון כשכבה): כאן, מודול הזיכרון מיושם כשכבה עצמאית הדוחסת מידע היסטורי לפני הזנתו למנגנון הקשב.

הצוות מצא שלכל וריאציה יש את החוזקות והחולשות שלה.

ביצועים ויתרונות של טיטאן

טיטאן הדגימה ביצועים מעולים במגוון משימות, כולל מודלים שפתיים, חשיבה הגיונית וחיזוי סדרות זמן. היא עקפה מודלים מתקדמים כמו טרנספורמר וממבה. ראוי לציין, כי מודול הזיכרון ארוך הטווח (LMM) לבדו עלה על מודלי בסיס במספר משימות, והציג את יכולות הלמידה העצמאיות שלו ללא זיכרון קצר טווח (קשב).

במבחן "מחט בערימת שחת" שנועד למצוא רמזים מדויקים בטקסטים ארוכים, טיטאן שמרה על דיוק של כ-90% גם כאשר אורכי הרצפים גדלו מ-2k ל-16k. הצוות מציין כי הבדיקות הסטנדרטיות אינן מציגות במלואן את יתרונותיה של טיטאן בטיפול בטקסטים ארוכים. טיטאן גם עלתה על מודלים כמו GPT4, ממבה ואפילו Llama3.1 עם RAG במשימה שדרשה הסקה מעובדות הפרוסות על פני מסמכים ארוכים במיוחד.

טיטאן הראתה ביצועים מרשימים בתחומים ספציפיים כמו חיזוי סדרות זמן ומידול רצף DNA.

הצוות שמאחורי טיטאן

המחקר נערך על ידי צוות מקבוצת האלגוריתמים והאופטימיזציה של גוגל מחקר NYC, שאינו חלק מגוגל DeepMind כרגע.

  • עלי בהרוז, מתמחה באוניברסיטת קורנל, הוא המחבר הראשון של המאמר.
  • ז'ונג פיילין, בוגר אוניברסיטת צינגהואה ודוקטור מאוניברסיטת קולומביה, הוא מדען מחקר בגוגל מאז 2021. הוא ידוע בכך שפרסם מאמר ראשון ב-STOC 2016 כסטודנט לתואר ראשון.
  • והאב מירוקני, עמית גוגל וסמנכ"ל, מוביל את הצוות.

הצוות פיתח את טיטאן באמצעות Pytorch ו-Jax ומתכנן לשחרר בקרוב את הקוד לאימון והערכה.