- Published on
معماری تایتان گوگل: شکستن گلوگاه حافظه ترنسفورمر
معرفی تایتان: معماری جدیدی از گوگل
دنیای فناوری در مورد تایتان، معماری جدیدی که از گوگل ظهور می کند، هیجان زده است. این معماری به منظور به چالش کشیدن محدودیت های مدل های ترنسفورمر، به ویژه در نحوه مدیریت حافظه طراحی شده است. این معماری جدید به عنوان جانشین بالقوه ترنسفورمر مورد توجه قرار گرفته است، به ویژه با توجه به توسعه آن توسط تیمی در گوگل.
چالش حافظه در مدل های موجود
مدل های سنتی مانند LSTM و ترنسفورمر، در عین نوآوری، در شبیه سازی حافظه انسان مانند با چالش هایی روبرو هستند. این چالش ها عبارتند از:
- ظرفیت محدود: داده ها اغلب در یک حالت پنهان با اندازه ثابت فشرده می شوند، که مقدار اطلاعات قابل نگهداری را محدود می کند.
- سربار محاسباتی: در حالی که قادر به گرفتن وابستگی های طولانی مدت هستند، هزینه محاسباتی به صورت درجه دوم با طول دنباله افزایش می یابد، و آن را برای دنباله های بسیار طولانی ناکارآمد می کند.
- تکیه بیش از حد به داده های آموزشی: صرفاً حفظ کردن داده های آموزشی همیشه در کاربردهای دنیای واقعی، جایی که داده های آزمون می توانند خارج از توزیع آموزشی قرار گیرند، کمک نمی کند.
رویکرد تایتان: یک ماژول حافظه الهام گرفته از عصب
تیم تایتان رویکرد متفاوتی را در پیش گرفته است، به دنبال رمزگذاری اطلاعات در پارامترهای یک شبکه عصبی است. آنها یک فرامدل آنلاین طراحی کرده اند که برای یادگیری نحوه به خاطر سپردن و فراموش کردن داده های خاص در طول آزمایش طراحی شده است. این مدل با الهام از اصول روانشناسی عصبی، عناصر کلیدی زیر را در خود جای داده است:
- شگفتی به عنوان محرک: رویدادهای غیرمنتظره راحت تر به خاطر سپرده می شوند. "شگفتی" با گرادیان ورودی به ماژول حافظه اندازه گیری می شود. هرچه گرادیان بزرگتر باشد، ورودی غیرمنتظره تر است.
- مکانیسم های تکانه و فراموشی: یک مکانیسم تکانه شگفتی های کوتاه مدت را در حافظه بلند مدت جمع می کند، در حالی که یک مکانیسم فراموشی خاطرات قدیمی را پاک می کند و از سرریز شدن حافظه جلوگیری می کند.
- حافظه مبتنی بر پرسپترون چند لایه (MLP): ماژول حافظه از چندین لایه MLP تشکیل شده است که به آن اجازه می دهد انتزاعات عمیق داده ها را ذخیره کند و آن را قدرتمندتر از حافظه های سنتی مبتنی بر ماتریس می کند.
این رویکرد فرا یادگیری آنلاین به مدل کمک می کند تا به جای حفظ صرف داده های آموزشی، بر یادگیری نحوه انطباق با داده های جدید تمرکز کند. این ماژول همچنین برای محاسبات موازی طراحی شده است که کارایی آن را افزایش می دهد.
ادغام ماژول حافظه در معماری های یادگیری عمیق
تیم تحقیقاتی تایتان سه نوع مختلف برای ادغام ماژول حافظه خود در معماری های یادگیری عمیق پیشنهاد کرده است:
- MAC (حافظه به عنوان زمینه): این روش حافظه بلند مدت و پایدار (که دانش کار را رمزگذاری می کند) را به عنوان زمینه ای ترکیب می کند که به مکانیزم توجه وارد می شود.
- MAG (حافظه به عنوان دروازه): این رویکرد از ترکیب دروازه ای ماژول حافظه با یک مکانیزم توجه پنجره کشویی در دو شاخه استفاده می کند.
- MAL (حافظه به عنوان لایه): در اینجا، ماژول حافظه به عنوان یک لایه مستقل پیاده سازی می شود که اطلاعات تاریخی را قبل از تغذیه آن به مکانیزم توجه فشرده می کند.
تیم دریافت که هر نوع دارای نقاط قوت و ضعف خود است.
عملکرد و مزایای تایتان
تایتان عملکرد برتری را در وظایف مختلف، از جمله مدل سازی زبان، استدلال عقل سلیم و پیش بینی سری های زمانی نشان داده است. این مدل از مدل های پیشرفته مانند ترنسفورمر و مامبا پیشی گرفته است. به طور خاص، ماژول حافظه بلند مدت (LMM) به تنهایی در چندین کار از مدل های پایه بهتر عمل کرده است، و قابلیت های یادگیری مستقل خود را بدون حافظه کوتاه مدت (توجه) به نمایش می گذارد.
در یک آزمایش "سوزن در انبار کاه" که برای یافتن سرنخ های دقیق در متون طولانی طراحی شده است، تایتان حتی با افزایش طول دنباله از 2k به 16k، دقت حدود 90% را حفظ کرد. این تیم اشاره می کند که آزمایش های استاندارد به طور کامل مزایای تایتان را در مدیریت متون طولانی نشان نمی دهند. تایتان همچنین در وظیفه ای که نیاز به استنتاج از حقایق پراکنده در اسناد بسیار طولانی داشت، از مدل هایی مانند GPT4، مامبا و حتی Llama3.1 با RAG بهتر عمل کرد.
تایتان همچنین در زمینه های خاصی مانند پیش بینی سری های زمانی و مدل سازی توالی DNA عملکرد چشمگیری از خود نشان داده است.
تیم پشت تایتان
این تحقیق توسط تیمی از گروه الگوریتم ها و بهینه سازی Google Research NYC انجام شده است، که در حال حاضر بخشی از Google DeepMind نیست.
- علی بهروز، کارآموز دانشگاه کرنل، نویسنده اول این مقاله است.
- ژونگ پیلین، فارغ التحصیل دانشگاه تسینگ هوا و فارغ التحصیل دکترا از دانشگاه کلمبیا، از سال 2021 دانشمند تحقیقاتی در گوگل است. او به دلیل انتشار مقاله نویسنده اول در STOC 2016 به عنوان دانشجوی کارشناسی قابل توجه است.
- وحاب میررکنی، همکار گوگل و معاون رئیس، رهبری تیم را بر عهده دارد.
این تیم تایتان را با استفاده از Pytorch و Jax توسعه داده است و قصد دارد به زودی کد آموزش و ارزیابی را منتشر کند.