- Published on
Google'dan Yeni Titan Mimarisi Transformer Bellek Sorununu Aşıyor
Google'dan Titan: Yeni Bir Mimari
Teknoloji dünyası, Google'dan çıkan yeni bir mimari olan Titan hakkında heyecanlı. Özellikle bellek kullanımında Transformer modellerinin sınırlamalarına meydan okumak için tasarlandı. Bu yeni mimari, özellikle Google içindeki bir ekip tarafından geliştirilmesi nedeniyle, Transformer'ın potansiyel bir halefi olarak büyük ilgi görüyor.
Mevcut Modellerdeki Bellek Sorunu
LSTM ve Transformer gibi geleneksel modeller, yenilikçi olsalar da insan benzeri belleği simüle etmede zorluklarla karşılaşıyor. Bu zorluklar şunlardır:
- Sınırlı Kapasite: Veriler genellikle sabit boyutlu bir gizli duruma sıkıştırılır, bu da tutulabilecek bilgi miktarını kısıtlar.
- Hesaplama Yükü: Uzun mesafeli bağımlılıkları yakalama yeteneğine sahip olsalar da, hesaplama maliyeti dizi uzunluğu ile karesel olarak artar, bu da çok uzun diziler için verimsiz hale getirir.
- Eğitim Verilerine Aşırı Bağımlılık: Eğitim verilerini ezberlemek, test verilerinin eğitim dağılımının dışına çıkabileceği gerçek dünya uygulamalarında her zaman yardımcı olmaz.
Titan'ın Yaklaşımı: Nöro-İlhamlı Bellek Modülü
Titan ekibi, bilgiyi bir sinir ağının parametrelerine kodlamaya çalışarak farklı bir yaklaşım benimsemiştir. Test sırasında belirli verileri nasıl hatırlayacağını ve unutacağını öğrenmek için tasarlanmış çevrimiçi bir meta-model geliştirdiler. Bu model, aşağıdaki temel unsurları içeren nöropsikolojik prensiplerden ilham almıştır:
- Sürpriz Tetikleyici Olarak: Beklenmedik olaylar daha kolay hatırlanır. "Sürpriz", bellek modülüne girişteki gradyan ile ölçülür. Gradyan ne kadar büyükse, girdi o kadar beklenmediktir.
- Momentum ve Unutma Mekanizmaları: Bir momentum mekanizması, kısa vadeli sürprizleri uzun vadeli bellekte biriktirirken, bir unutma mekanizması, bellek taşmasını önleyerek eski anıları siler.
- Çok Katmanlı Perceptron (MLP) Tabanlı Bellek: Bellek modülü, geleneksel matris tabanlı belleklerden daha güçlü hale getirerek, verilerin derin soyutlamalarını depolamasına olanak tanıyan birden çok MLP katmanından oluşur.
Bu çevrimiçi meta-öğrenme yaklaşımı, modelin yalnızca eğitim verilerini ezberlemek yerine yeni verilere nasıl uyum sağlayacağını öğrenmeye odaklanmasına yardımcı olur. Modül ayrıca paralel hesaplama için tasarlanmıştır, bu da verimliliğini artırır.
Bellek Modülünü Derin Öğrenme Mimarilerine Entegre Etme
Titans araştırma ekibi, bellek modüllerini derin öğrenme mimarilerine entegre etmek için üç varyasyon önermiştir:
- MAC (Bağlam Olarak Bellek): Bu yöntem, dikkat mekanizmasına girdi olarak uzun vadeli ve kalıcı belleği (görev bilgisini kodlayan) bağlam olarak birleştirir.
- MAG (Kapı Olarak Bellek): Bu yaklaşım, bellek modülünün iki dalda kayan pencere dikkat mekanizmasıyla kapılı bir füzyonunu kullanır.
- MAL (Katman Olarak Bellek): Burada, bellek modülü, dikkat mekanizmasına beslemeden önce geçmiş bilgileri sıkıştıran bağımsız bir katman olarak uygulanır.
Ekip, her varyasyonun kendi güçlü ve zayıf yönlerinin olduğunu buldu.
Titans'ın Performansı ve Avantajları
Titans, dil modelleme, sağduyu muhakemesi ve zaman serisi tahmini dahil olmak üzere çeşitli görevlerde üstün performans göstermiştir. Transformer ve Mamba gibi son teknoloji modelleri geride bırakmıştır. Özellikle, uzun vadeli bellek modülü (LMM) tek başına, kısa vadeli bellek (dikkat) olmadan bağımsız öğrenme yeteneklerini sergileyerek çeşitli görevlerde temel modellerden daha iyi performans göstermiştir.
Uzun metinlerde ince detayları bulmak için tasarlanan bir "samanlıkta iğne" testinde, dizi uzunlukları 2k'dan 16k'ya çıktıkça Titans %90 civarında bir doğruluğu korumuştur. Ekip, standart testlerin Titans'ın uzun metinleri işleme konusundaki avantajlarını tam olarak göstermediğini belirtiyor. Titans ayrıca, son derece uzun belgelerde yayılan gerçeklerden çıkarım gerektiren bir görevde GPT4, Mamba ve hatta RAG ile Llama3.1 gibi modellerden daha iyi performans göstermiştir.
Titans, zaman serisi tahmini ve DNA dizisi modellemesi gibi belirli alanlarda da etkileyici bir performans göstermiştir.
Titans'ın Arkasındaki Ekip
Araştırma, Google DeepMind'in bir parçası olmayan Google Research NYC algoritmaları ve optimizasyon grubundan bir ekip tarafından yürütülmüştür.
Cornell Üniversitesi stajyeri Ali Behrouz, makalenin ilk yazarıdır.
Tsinghua Üniversitesi mezunu ve Columbia Üniversitesi'nden doktora mezunu Zhong Peilin, 2021'den beri Google'da araştırma bilimcisi olarak çalışmaktadır. Lisans öğrencisiyken STOC 2016'da ilk yazar olarak bir makale yayınlamasıyla dikkat çekmektedir.
Google Fellow ve Başkan Yardımcısı Vahab Mirrokni, ekibe liderlik etmektedir.
Ekip, Titans'ı Pytorch ve Jax kullanarak geliştirdi ve eğitim ve değerlendirme kodunu yakında yayınlamayı planlıyor.