- Published on
ארכיטקטורת BLT של מטא מבטלת טוקניזציה
מבוא
מטא, בשיתוף פעולה עם חוקרים מאוניברסיטת שיקגו ומוסדות נוספים, פרסמה לאחרונה מאמר פורץ דרך שכותרתו "Byte Latent Transformer: Patches Scale Better Than Tokens". מחקר זה עורר דיון ניכר, במיוחד בפלטפורמות כמו Hacker News. הרעיון המרכזי סובב סביב גישה חדשה למודלי שפה שעשויה להחליף את תהליך הטוקניזציה המסורתי. ההתרגשות מורגשת, כאשר חלק מהחוקרים מביעים להוטות לעבור מעבר לטוקנייזרים. עם זאת, יש גם חשש לגבי היתכנות שילוב טכנולוגיה חדשה זו, בהתחשב בכך שטוקניזציה מהווה את הבסיס למודלים קיימים רבים.
הבעיה עם טוקניזציה
מודלי שפה מסורתיים מסתמכים על טוקניזציה לעיבוד מקדים של נתונים. עם זאת, לשיטה זו יש מספר מגבלות. אלה כוללים:
- גודל אוצר מילים קבוע, שאולי אינו מספיק לכל השפות או ההקשרים.
- חוסר יעילות בעיבוד נתונים רב-לשוניים או רועשים.
- הכנסת הטיה עקב היוריסטיקות דחיסה.
Byte Latent Transformer (BLT)
המחקר מציג את ה-Byte Latent Transformer (BLT) כפתרון המאתגר את גישת הטוקניזציה המקובלת. במקום לעבוד עם אסימונים, BLT מדגמן ישירות זרמי בייטים גולמיים. הוא מקבץ באופן דינמי את הבייטים הללו לתיקונים בהתבסס על האנטרופיה שלהם, מה שמייעל את היעילות החישובית. המשמעות היא ש-BLT יכול ללמוד ישירות מנתוני הבייטים המקוריים מבלי להסתמך על אוצר מילים סטטי. BLT נועד להתמודד עם קלטים מגוונים ורועשים בצורה יעילה יותר.
תכונות עיקריות של BLT כוללות:
- תיקון מבוסס אנטרופיה: BLT מקבץ באופן דינמי בייטים לתיקונים בהתבסס על מורכבות המידע שלהם. גישה זו מקצה יותר משאבים חישוביים לאזורים בעלי אנטרופיה גבוהה (מורכבים) וחוסכת משאבים באזורים בעלי אנטרופיה נמוכה.
- קנה מידה יעיל: BLT מייעל את גדלי התיקון ומשתמש במודלים מקומיים קלי משקל, ומשיג ביצועים דומים או טובים יותר ממודלים מבוססי אסימונים כמו LLaMA. זה גם מפחית את העלויות החישוביות בעד 50% במהלך ההסקה.
- חוסן וגמישות: BLT מדגים ביצועים יוצאי דופן במשימות הדורשות הבנה ברמת התווים, טיפול בקלטים רועשים או הכללה לנתונים ארוכי זנב, ועולה על ארכיטקטורות מבוססות אסימונים במדדים רבים.
ארכיטקטורת BLT
ארכיטקטורת BLT מורכבת מ:
- מודל שפה אוטוגרסיבי גלובלי גדול הפועל על ייצוגי תיקון.
- שני מודלים מקומיים קטנים יותר המקודדים רצפי בייטים לתיקונים ומפענחים ייצוגי תיקון חזרה לבייטים.
מודל Transformer סמוי גלובלי
ה-Transformer הסמוי הגלובלי הוא מודל אוטוגרסיבי הממפה ייצוגי תיקון קלט לייצוגי תיקון פלט. הוא משתמש במסכת קשב סיבתית בלוק.
מקודד מקומי
מודל המקודד המקומי הוא מודל מבוסס Transformer קל משקל הממפה ביעילות רצפי בייטים קלט לייצוגי תיקון אקספרסיביים. יש לו שכבות קשב צולבות לאחר כל שכבת Transformer, המאגדות ייצוגי בייטים לייצוגי תיקון.
- הטמעת בייט: רצפי הבייט הקלט מוטמעים באמצעות מטריצה.
- שכבות Transformer: סדרה של שכבות Transformer וקשב צולבות מתחלפות ממירות את ההטמעות לייצוגי תיקון. זה כולל מסכת קשב סיבתית בלוק מקומית.
מפענח מקומי
המפענח המקומי הוא מודל נוסף מבוסס Transformer קל משקל. הוא מפענח ייצוגי תיקון גלובליים לבייטים המקוריים. הוא משתמש בסדרה של שכבות קשב צולבות ו-Transformer. זה מאפשר חיזוי של רצפי הבייטים המקוריים בהתבסס על בייטים שפוענחו בעבר.
מגמות קנה מידה
המחקר בוחן את מגמות קנה המידה של מודלים ברמת הבייט כדי ליידע על פיתוח מודל BLT נוסף. זה כולל:
- השוואת מגמות בסכימות אימון אופטימליות מבחינה חישובית.
- אימון מודלים של 8B פרמטרים על מערכי נתונים גדולים והערכת ביצועים במשימות במורד הזרם.
- מדידת מגמות קנה מידה בהגדרות מבוקרות עלויות הסקה.
מגמות קנה מידה אופטימליות מבחינה חישובית תואמות פרמטרים
באמצעות מערך הנתונים Llama 2, החוקרים אימנו מודלים שונים של BPE ו-BLT בגדלים שונים (1B עד 8B פרמטרים) עם הגדרות אופטימליות מבחינה חישובית. פלופס האימון שורטטו מול ביצועי מודל השפה. מודלי ה-BLT התאימו או עלו על מודלי ה-BPE, ומגמה זו נמשכה ככל שגדלי המודל והפלופים גדלו.
מערך נתונים BLT-1T
מודל BLT עם 8B פרמטרים אומן על מערך נתונים גדול יותר ואיכותי, BLT-1T. התוצאות הראו שמודל ה-BLT-Entropy עלה על מודל Llama 3 ב-4 מתוך 7 המשימות. שיפור זה מיוחס לשימוש טוב יותר בחישוב האימון באמצעות תיקונים דינמיים ומידול מידע ברמת הבייט במקום אסימונים.
קנה מידה של תיקון
המחקר מדגיש כי תיקונים מתרחבים בקלות רבה יותר מאשר אסימונים. המחקר על קנה מידה של אורך תיקון מראה שארכיטקטורת BLT מבוססת התיקון יכולה להשיג מגמות קנה מידה טובות יותר על ידי הגדלת גדלי התיקון והמודל כאחד.
חוסן באמצעות מידול בייט
משימות ברמת התווים
מודל ה-BLT מדגים חוסן מעולה במבחני HellaSwag רועשים, ועולה על מודלים מבוססי טוקנייזרים בממוצע ב-8 נקודות אחוז. הוא אפילו עלה על מודלי Llama 3.1 שאומנו על מערכי נתונים גדולים יותר.
שפות דלות משאבים
BLT מתפקד באופן דומה או מעט טוב יותר מ-Llama 3 בזוגות שפות פופולריים. עם זאת, הוא עולה משמעותית על Llama 3 בזוגות שפות דלות משאבים, מה שמדגים את האפקטיביות של מידול בייט בהכללה לרצפי בייט ארוכי זנב.
מ-Llama 3 ל-BLT
המחברים חקרו זרימת עבודה שבה מודלי BLT יכולים להשתמש במודלים מבוססי טוקנייזר שאומנו מראש. זה נעשה על ידי אתחול פרמטרי הטוקנייזר הגלובלי של BLT עם Llama 3.1 שאומן מראש. התוצאות הראו ש-BLT שאותחל עם Llama 3.1 עלה על שני מודלי Llama 3 וגם על מודלי BLT בסיסיים שאומנו עם אותו מספר פלופים.