Published on

Seni Bina Titan Google Memecahkan Kesesakan Memori Transformer

Pengarang
  • avatar
    Nama
    Ajax
    Twitter

Memperkenalkan Titan: Seni Bina Baharu Dari Google

Dunia teknologi sedang gempar mengenai Titan, seni bina baharu yang muncul dari Google. Ia direka untuk mencabar batasan model Transformer, terutamanya dalam cara ia mengendalikan memori. Seni bina baharu ini mendapat perhatian yang signifikan sebagai pengganti yang berpotensi kepada Transformer, terutamanya memandangkan ia dibangunkan oleh pasukan dalam Google.

Cabaran Memori Dalam Model Sedia Ada

Model tradisional seperti LSTM dan Transformer, walaupun inovatif, menghadapi cabaran dalam mensimulasikan memori seperti manusia. Cabaran ini termasuk:

  • Kapasiti Terhad: Data sering dimampatkan ke dalam keadaan tersembunyi bersaiz tetap, mengehadkan jumlah maklumat yang boleh dikekalkan.
  • Overhed Pengiraan: Walaupun mampu menangkap kebergantungan jarak jauh, kos pengiraan meningkat secara kuadratik dengan panjang jujukan, menjadikannya tidak cekap untuk jujukan yang sangat panjang.
  • Ketergantungan Berlebihan pada Data Latihan: Hanya menghafal data latihan tidak selalu membantu dalam aplikasi dunia sebenar, di mana data ujian boleh jatuh di luar taburan latihan.

Pendekatan Titan: Modul Memori Diinspirasikan Neuro

Pasukan Titan telah mengambil pendekatan yang berbeza, berusaha untuk mengekod maklumat ke dalam parameter rangkaian saraf. Mereka telah membangunkan meta-model dalam talian yang direka untuk belajar bagaimana mengingati dan melupakan data tertentu semasa ujian. Model ini diilhamkan oleh prinsip-prinsip neuro-psikologi, menggabungkan elemen-elemen utama berikut:

  • Kejutan sebagai Pencetus: Peristiwa yang tidak dijangka lebih mudah diingati. "Kejutan" diukur oleh kecerunan input kepada modul memori. Semakin besar kecerunan, semakin tidak dijangka input.
  • Mekanisme Momentum dan Pelupaan: Mekanisme momentum mengumpul kejutan jangka pendek ke dalam memori jangka panjang, manakala mekanisme pelupaan memadamkan memori lama, menghalang limpahan memori.
  • Memori Berasaskan Multi-Layer Perceptron (MLP): Modul memori terdiri daripada beberapa lapisan MLP, membolehkannya menyimpan abstraksi data yang mendalam, menjadikannya lebih berkuasa daripada memori berasaskan matriks tradisional.

Pendekatan meta-pembelajaran dalam talian ini membantu model untuk memberi tumpuan kepada pembelajaran cara menyesuaikan diri dengan data baharu, dan bukan hanya menghafal data latihan. Modul ini juga direka untuk pengiraan selari, meningkatkan kecekapan.

Mengintegrasikan Modul Memori Ke Dalam Seni Bina Pembelajaran Mendalam

Pasukan penyelidikan Titan mencadangkan tiga variasi untuk menggabungkan modul memori mereka ke dalam seni bina pembelajaran mendalam:

  1. MAC (Memory as Context): Kaedah ini menggabungkan memori jangka panjang dan berterusan (yang mengekod pengetahuan tugas) sebagai konteks yang merupakan input kepada mekanisme perhatian.
  2. MAG (Memory as Gate): Pendekatan ini menggunakan gabungan berpagar modul memori dengan mekanisme perhatian tetingkap gelongsor merentasi dua cabang.
  3. MAL (Memory as Layer): Di sini, modul memori dilaksanakan sebagai lapisan bebas yang memampatkan maklumat sejarah sebelum menyuapkannya ke mekanisme perhatian.

Pasukan itu mendapati bahawa setiap variasi mempunyai kekuatan dan kelemahannya.

Prestasi Dan Kelebihan Titan

Titan telah menunjukkan prestasi yang unggul merentasi pelbagai tugas, termasuk pemodelan bahasa, penaakulan akal, dan ramalan siri masa. Ia telah melampaui model tercanggih seperti Transformer dan Mamba. Terutamanya, modul memori jangka panjang (LMM) sahaja telah mengatasi model asas dalam beberapa tugas, mempamerkan keupayaan pembelajaran bebasnya tanpa memori jangka pendek (perhatian).

Dalam ujian "jarum dalam timbunan jerami" yang direka untuk mencari petunjuk halus dalam teks panjang, Titan mengekalkan sekitar 90% ketepatan walaupun panjang jujukan meningkat daripada 2k kepada 16k. Pasukan itu menunjukkan bahawa ujian standard tidak sepenuhnya mempamerkan kelebihan Titan dalam mengendalikan teks panjang. Titan juga mengatasi model seperti GPT4, Mamba, dan juga Llama3.1 dengan RAG dalam tugas yang memerlukan inferens daripada fakta yang tersebar di seluruh dokumen yang sangat panjang.

Titan telah menunjukkan prestasi yang mengagumkan dalam bidang khusus seperti ramalan siri masa dan pemodelan jujukan DNA juga.

Pasukan Di Sebalik Titan

Penyelidikan ini dijalankan oleh pasukan dari kumpulan algoritma dan pengoptimuman Google Research NYC, yang pada masa ini bukan sebahagian daripada Google DeepMind.

  • Ali Behrouz, seorang pelatih Universiti Cornell, ialah pengarang pertama kertas itu.
  • Zhong Peilin, seorang alumni Universiti Tsinghua dan lulusan Ph.D. dari Universiti Columbia, ialah saintis penyelidik di Google sejak 2021. Beliau terkenal kerana telah menerbitkan kertas pengarang pertama di STOC 2016 sebagai pelajar sarjana muda.
  • Vahab Mirrokni, seorang Google Fellow dan VP, mengetuai pasukan.

Pasukan itu membangunkan Titan menggunakan Pytorch dan Jax dan merancang untuk mengeluarkan kod untuk latihan dan penilaian tidak lama lagi.