Arsitektur Titan Google Menerobos Kendala Memori Transformer

Memperkenalkan Titan: Arsitektur Baru dari Google

Dunia teknologi sedang ramai membicarakan Titan, sebuah arsitektur baru yang muncul dari Google. Arsitektur ini dirancang untuk menantang keterbatasan model Transformer, terutama dalam cara mereka menangani memori. Arsitektur baru ini mendapatkan perhatian signifikan sebagai calon penerus Transformer, terutama karena pengembangannya oleh tim di dalam Google.

Tantangan Memori pada Model yang Ada

Model tradisional seperti LSTM dan Transformer, meskipun inovatif, menghadapi tantangan dalam mensimulasikan memori seperti manusia. Tantangan ini meliputi:

Kapasitas Terbatas: Data sering dikompresi ke dalam keadaan tersembunyi berukuran tetap, membatasi jumlah informasi yang dapat disimpan.
Overhead Komputasi: Meskipun mampu menangkap dependensi jarak jauh, biaya komputasi meningkat secara kuadrat dengan panjang urutan, membuatnya tidak efisien untuk urutan yang sangat panjang.
Ketergantungan Berlebihan pada Data Pelatihan: Hanya menghafal data pelatihan tidak selalu membantu dalam aplikasi dunia nyata, di mana data pengujian dapat berada di luar distribusi pelatihan.

Pendekatan Titan: Modul Memori Terinspirasi Saraf

Tim Titan telah mengambil pendekatan yang berbeda, berusaha untuk mengkodekan informasi ke dalam parameter jaringan saraf. Mereka telah mengembangkan meta-model online yang dirancang untuk belajar bagaimana mengingat dan melupakan data spesifik selama pengujian. Model ini terinspirasi oleh prinsip-prinsip neuro-psikologis, menggabungkan elemen-elemen kunci berikut:

Kejutan sebagai Pemicu: Peristiwa tak terduga lebih mudah diingat. "Kejutan" diukur dengan gradien input ke modul memori. Semakin besar gradien, semakin tak terduga inputnya.
Momentum dan Mekanisme Pelupaan: Mekanisme momentum mengakumulasi kejutan jangka pendek ke dalam memori jangka panjang, sementara mekanisme pelupaan menghapus memori lama, mencegah kelebihan memori.
Memori Berbasis Multi-Layer Perceptron (MLP): Modul memori terdiri dari beberapa lapisan MLP, memungkinkannya untuk menyimpan abstraksi data yang mendalam, membuatnya lebih kuat daripada memori berbasis matriks tradisional.

Pendekatan meta-pembelajaran online ini membantu model untuk fokus pada pembelajaran cara beradaptasi dengan data baru, daripada hanya menghafal data pelatihan. Modul ini juga dirancang untuk komputasi paralel, meningkatkan efisiensinya.

Mengintegrasikan Modul Memori ke dalam Arsitektur Deep Learning

Tim peneliti Titan mengusulkan tiga variasi untuk menggabungkan modul memori mereka ke dalam arsitektur deep learning:

MAC (Memory as Context): Metode ini menggabungkan memori jangka panjang dan persisten (yang mengkodekan pengetahuan tugas) sebagai konteks yang menjadi input mekanisme perhatian.
MAG (Memory as Gate): Pendekatan ini menggunakan fusi gerbang dari modul memori dengan mekanisme perhatian jendela geser di dua cabang.
MAL (Memory as Layer): Di sini, modul memori diimplementasikan sebagai lapisan independen yang mengompres informasi historis sebelum memberikannya ke mekanisme perhatian.

Tim menemukan bahwa setiap variasi memiliki kekuatan dan kelemahan masing-masing.

Kinerja dan Keunggulan Titan

Titan telah menunjukkan kinerja superior di berbagai tugas, termasuk pemodelan bahasa, penalaran akal sehat, dan prediksi deret waktu. Model ini telah melampaui model-model canggih seperti Transformer dan Mamba. Khususnya, modul memori jangka panjang (LMM) saja telah mengungguli model dasar dalam beberapa tugas, menunjukkan kemampuan pembelajaran independennya tanpa memori jangka pendek (perhatian).

Dalam tes "jarum di tumpukan jerami" yang dirancang untuk menemukan petunjuk halus dalam teks panjang, Titan mempertahankan akurasi sekitar 90% bahkan ketika panjang urutan meningkat dari 2k menjadi 16k. Tim menunjukkan bahwa tes standar tidak sepenuhnya menunjukkan keunggulan Titan dalam menangani teks panjang. Titan juga mengungguli model seperti GPT4, Mamba, dan bahkan Llama3.1 dengan RAG dalam tugas yang membutuhkan inferensi dari fakta-fakta yang tersebar di seluruh dokumen yang sangat panjang.

Titan telah menunjukkan kinerja yang mengesankan di bidang-bidang spesifik seperti prediksi deret waktu dan pemodelan urutan DNA juga.

Tim di Balik Titan

Penelitian ini dilakukan oleh tim dari Google Research NYC algorithms and optimization group, yang saat ini bukan bagian dari Google DeepMind.

Ali Behrouz, seorang mahasiswa magang dari Cornell University, adalah penulis pertama makalah ini.
Zhong Peilin, seorang alumni Universitas Tsinghua dan lulusan Ph.D. dari Columbia University, adalah ilmuwan riset di Google sejak 2021. Ia terkenal karena telah menerbitkan makalah penulis pertama di STOC 2016 sebagai mahasiswa sarjana.
Vahab Mirrokni, seorang Google Fellow dan VP, memimpin tim.

Tim mengembangkan Titan menggunakan Pytorch dan Jax dan berencana untuk segera merilis kode untuk pelatihan dan evaluasi.