สถาปัตยกรรม Titan ใหม่จาก Google ทลายข้อจำกัดด้านหน่วยความจำของ Transformer

Titan: สถาปัตยกรรมใหม่จาก Google

โลกเทคโนโลยีต่างตื่นเต้นกับ Titan สถาปัตยกรรมใหม่ที่กำลังมาแรงจาก Google ที่ออกแบบมาเพื่อท้าทายข้อจำกัดของโมเดล Transformer โดยเฉพาะอย่างยิ่งในด้านการจัดการหน่วยความจำ สถาปัตยกรรมใหม่นี้ได้รับความสนใจอย่างมากในฐานะผู้สืบทอดที่มีศักยภาพของ Transformer โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงการพัฒนาโดยทีมงานภายใน Google

ความท้าทายด้านหน่วยความจำในโมเดลที่มีอยู่

โมเดลแบบดั้งเดิม เช่น LSTM และ Transformer แม้จะมีความล้ำหน้า แต่ก็เผชิญกับความท้าทายในการจำลองหน่วยความจำแบบมนุษย์ ซึ่งความท้าทายเหล่านี้รวมถึง:

ความจุที่จำกัด: ข้อมูลมักถูกบีบอัดให้อยู่ในสถานะซ่อนที่มีขนาดคงที่ ซึ่งจำกัดปริมาณข้อมูลที่สามารถเก็บรักษาได้
ค่าใช้จ่ายในการคำนวณ: แม้จะสามารถจับการพึ่งพาระยะยาวได้ แต่ค่าใช้จ่ายในการคำนวณจะเพิ่มขึ้นแบบกำลังสองตามความยาวของลำดับ ทำให้ไม่มีประสิทธิภาพสำหรับลำดับที่ยาวมาก
การพึ่งพาข้อมูลการฝึกอบรมมากเกินไป: การจำข้อมูลการฝึกอบรมเพียงอย่างเดียวไม่ได้ช่วยในการใช้งานจริงเสมอไป ซึ่งข้อมูลทดสอบอาจไม่อยู่ในการกระจายการฝึกอบรม

แนวทางของ Titan: โมดูลหน่วยความจำที่ได้รับแรงบันดาลใจจากระบบประสาท

ทีม Titan ได้ใช้แนวทางที่แตกต่างออกไป โดยพยายามเข้ารหัสข้อมูลลงในพารามิเตอร์ของเครือข่ายประสาท พวกเขาได้พัฒนาโมเดล Meta-Learning ออนไลน์ที่ออกแบบมาเพื่อเรียนรู้วิธีการจดจำและลืมข้อมูลเฉพาะระหว่างการทดสอบ โมเดลนี้ได้รับแรงบันดาลใจจากหลักการทางจิตวิทยาประสาท โดยมีองค์ประกอบหลักดังนี้:

ความประหลาดใจเป็นตัวกระตุ้น: เหตุการณ์ที่ไม่คาดคิดจะถูกจดจำได้ง่ายกว่า "ความประหลาดใจ" จะวัดจากความชันของอินพุตไปยังโมดูลหน่วยความจำ ยิ่งความชันมากเท่าใด อินพุตก็จะยิ่งไม่คาดคิดมากขึ้นเท่านั้น
กลไกโมเมนตัมและการลืม: กลไกโมเมนตัมสะสมความประหลาดใจระยะสั้นไว้ในหน่วยความจำระยะยาว ในขณะที่กลไกการลบล้างความทรงจำเก่า ๆ เพื่อป้องกันหน่วยความจำล้น
หน่วยความจำที่ใช้ Multi-Layer Perceptron (MLP): โมดูลหน่วยความจำประกอบด้วยเลเยอร์ MLP หลายชั้น ทำให้สามารถจัดเก็บนามธรรมของข้อมูลเชิงลึก ทำให้มีประสิทธิภาพมากกว่าหน่วยความจำแบบเมทริกซ์แบบดั้งเดิม

แนวทาง Meta-Learning ออนไลน์นี้ช่วยให้โมเดลมุ่งเน้นไปที่การเรียนรู้วิธีการปรับตัวให้เข้ากับข้อมูลใหม่ แทนที่จะจำข้อมูลการฝึกอบรมเพียงอย่างเดียว โมดูลนี้ยังได้รับการออกแบบมาสำหรับการคำนวณแบบขนาน ซึ่งช่วยเพิ่มประสิทธิภาพ

การรวมโมดูลหน่วยความจำเข้ากับสถาปัตยกรรม Deep Learning

ทีมวิจัย Titans ได้เสนอสามรูปแบบสำหรับการรวมโมดูลหน่วยความจำเข้ากับสถาปัตยกรรม Deep Learning:

MAC (Memory as Context): วิธีนี้รวมหน่วยความจำระยะยาวและหน่วยความจำถาวร (ซึ่งเข้ารหัสความรู้ของงาน) เป็นบริบทที่เป็นอินพุตไปยังกลไกการใส่ใจ
MAG (Memory as Gate): แนวทางนี้ใช้การรวมฟิวชันแบบ gated ของโมดูลหน่วยความจำกับกลไกการใส่ใจแบบ sliding window ข้ามสองสาขา
MAL (Memory as Layer): ที่นี่ โมดูลหน่วยความจำจะถูกนำไปใช้เป็นเลเยอร์อิสระที่บีบอัดข้อมูลในอดีตก่อนที่จะป้อนไปยังกลไกการใส่ใจ

ทีมงานพบว่าแต่ละรูปแบบมีจุดแข็งและจุดอ่อน

ประสิทธิภาพและข้อดีของ Titans

Titans ได้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในงานต่างๆ รวมถึงการสร้างแบบจำลองภาษา การให้เหตุผลเชิงสามัญสำนึก และการทำนายอนุกรมเวลา ได้แซงหน้าโมเดลที่ล้ำสมัย เช่น Transformer และ Mamba โดยเฉพาะอย่างยิ่งโมดูลหน่วยความจำระยะยาว (LMM) เพียงอย่างเดียวได้เอาชนะโมเดลพื้นฐานในหลายๆ งาน แสดงให้เห็นถึงความสามารถในการเรียนรู้ที่เป็นอิสระโดยไม่มีหน่วยความจำระยะสั้น (การใส่ใจ)

ในการทดสอบ "เข็มในกองฟาง" ที่ออกแบบมาเพื่อค้นหาเบาะแสที่ละเอียดในข้อความยาวๆ Titans รักษาความแม่นยำไว้ที่ประมาณ 90% แม้ว่าความยาวของลำดับจะเพิ่มขึ้นจาก 2k เป็น 16k ทีมงานระบุว่าการทดสอบมาตรฐานไม่ได้แสดงให้เห็นถึงข้อได้เปรียบของ Titans ในการจัดการข้อความยาวๆ อย่างเต็มที่ Titans ยังมีประสิทธิภาพเหนือกว่าโมเดลต่างๆ เช่น GPT4, Mamba และแม้แต่ Llama3.1 พร้อม RAG ในงานที่ต้องอนุมานจากข้อเท็จจริงที่กระจายอยู่ทั่วเอกสารยาวมาก

Titans ยังแสดงประสิทธิภาพที่น่าประทับใจในด้านเฉพาะ เช่น การทำนายอนุกรมเวลาและการสร้างแบบจำลองลำดับ DNA

ทีมงานเบื้องหลัง Titans

การวิจัยดำเนินการโดยทีมงานจาก Google Research NYC algorithms and optimization group ซึ่งปัจจุบันไม่ได้เป็นส่วนหนึ่งของ Google DeepMind

Ali Behrouz นักศึกษาฝึกงานจาก Cornell University เป็นผู้เขียนคนแรกของบทความ
Zhong Peilin ศิษย์เก่า Tsinghua University และผู้สำเร็จการศึกษาระดับปริญญาเอก จาก Columbia University เป็นนักวิทยาศาสตร์การวิจัยที่ Google ตั้งแต่ปี 2021 เขาโดดเด่นจากการตีพิมพ์บทความในฐานะผู้เขียนคนแรกที่ STOC 2016 ในฐานะนักศึกษาปริญญาตรี
Vahab Mirrokni, a Google Fellow และ VP เป็นหัวหน้าทีม

ทีมงานได้พัฒนา Titans โดยใช้ Pytorch และ Jax และวางแผนที่จะเปิดตัวโค้ดสำหรับการฝึกอบรมและการประเมินในเร็วๆ นี้