- Published on
สถาปัตยกรรม Titan ใหม่จาก Google ทลายข้อจำกัดด้านหน่วยความจำของ Transformer
Titan: สถาปัตยกรรมใหม่จาก Google
โลกเทคโนโลยีต่างตื่นเต้นกับ Titan สถาปัตยกรรมใหม่ที่กำลังมาแรงจาก Google ที่ออกแบบมาเพื่อท้าทายข้อจำกัดของโมเดล Transformer โดยเฉพาะอย่างยิ่งในด้านการจัดการหน่วยความจำ สถาปัตยกรรมใหม่นี้ได้รับความสนใจอย่างมากในฐานะผู้สืบทอดที่มีศักยภาพของ Transformer โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงการพัฒนาโดยทีมงานภายใน Google
ความท้าทายด้านหน่วยความจำในโมเดลที่มีอยู่
โมเดลแบบดั้งเดิม เช่น LSTM และ Transformer แม้จะมีความล้ำหน้า แต่ก็เผชิญกับความท้าทายในการจำลองหน่วยความจำแบบมนุษย์ ซึ่งความท้าทายเหล่านี้รวมถึง:
- ความจุที่จำกัด: ข้อมูลมักถูกบีบอัดให้อยู่ในสถานะซ่อนที่มีขนาดคงที่ ซึ่งจำกัดปริมาณข้อมูลที่สามารถเก็บรักษาได้
- ค่าใช้จ่ายในการคำนวณ: แม้จะสามารถจับการพึ่งพาระยะยาวได้ แต่ค่าใช้จ่ายในการคำนวณจะเพิ่มขึ้นแบบกำลังสองตามความยาวของลำดับ ทำให้ไม่มีประสิทธิภาพสำหรับลำดับที่ยาวมาก
- การพึ่งพาข้อมูลการฝึกอบรมมากเกินไป: การจำข้อมูลการฝึกอบรมเพียงอย่างเดียวไม่ได้ช่วยในการใช้งานจริงเสมอไป ซึ่งข้อมูลทดสอบอาจไม่อยู่ในการกระจายการฝึกอบรม
แนวทางของ Titan: โมดูลหน่วยความจำที่ได้รับแรงบันดาลใจจากระบบประสาท
ทีม Titan ได้ใช้แนวทางที่แตกต่างออกไป โดยพยายามเข้ารหัสข้อมูลลงในพารามิเตอร์ของเครือข่ายประสาท พวกเขาได้พัฒนาโมเดล Meta-Learning ออนไลน์ที่ออกแบบมาเพื่อเรียนรู้วิธีการจดจำและลืมข้อมูลเฉพาะระหว่างการทดสอบ โมเดลนี้ได้รับแรงบันดาลใจจากหลักการทางจิตวิทยาประสาท โดยมีองค์ประกอบหลักดังนี้:
- ความประหลาดใจเป็นตัวกระตุ้น: เหตุการณ์ที่ไม่คาดคิดจะถูกจดจำได้ง่ายกว่า "ความประหลาดใจ" จะวัดจากความชันของอินพุตไปยังโมดูลหน่วยความจำ ยิ่งความชันมากเท่าใด อินพุตก็จะยิ่งไม่คาดคิดมากขึ้นเท่านั้น
- กลไกโมเมนตัมและการลืม: กลไกโมเมนตัมสะสมความประหลาดใจระยะสั้นไว้ในหน่วยความจำระยะยาว ในขณะที่กลไกการลบล้างความทรงจำเก่า ๆ เพื่อป้องกันหน่วยความจำล้น
- หน่วยความจำที่ใช้ Multi-Layer Perceptron (MLP): โมดูลหน่วยความจำประกอบด้วยเลเยอร์ MLP หลายชั้น ทำให้สามารถจัดเก็บนามธรรมของข้อมูลเชิงลึก ทำให้มีประสิทธิภาพมากกว่าหน่วยความจำแบบเมทริกซ์แบบดั้งเดิม
แนวทาง Meta-Learning ออนไลน์นี้ช่วยให้โมเดลมุ่งเน้นไปที่การเรียนรู้วิธีการปรับตัวให้เข้ากับข้อมูลใหม่ แทนที่จะจำข้อมูลการฝึกอบรมเพียงอย่างเดียว โมดูลนี้ยังได้รับการออกแบบมาสำหรับการคำนวณแบบขนาน ซึ่งช่วยเพิ่มประสิทธิภาพ
การรวมโมดูลหน่วยความจำเข้ากับสถาปัตยกรรม Deep Learning
ทีมวิจัย Titans ได้เสนอสามรูปแบบสำหรับการรวมโมดูลหน่วยความจำเข้ากับสถาปัตยกรรม Deep Learning:
- MAC (Memory as Context): วิธีนี้รวมหน่วยความจำระยะยาวและหน่วยความจำถาวร (ซึ่งเข้ารหัสความรู้ของงาน) เป็นบริบทที่เป็นอินพุตไปยังกลไกการใส่ใจ
- MAG (Memory as Gate): แนวทางนี้ใช้การรวมฟิวชันแบบ gated ของโมดูลหน่วยความจำกับกลไกการใส่ใจแบบ sliding window ข้ามสองสาขา
- MAL (Memory as Layer): ที่นี่ โมดูลหน่วยความจำจะถูกนำไปใช้เป็นเลเยอร์อิสระที่บีบอัดข้อมูลในอดีตก่อนที่จะป้อนไปยังกลไกการใส่ใจ
ทีมงานพบว่าแต่ละรูปแบบมีจุดแข็งและจุดอ่อน
ประสิทธิภาพและข้อดีของ Titans
Titans ได้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในงานต่างๆ รวมถึงการสร้างแบบจำลองภาษา การให้เหตุผลเชิงสามัญสำนึก และการทำนายอนุกรมเวลา ได้แซงหน้าโมเดลที่ล้ำสมัย เช่น Transformer และ Mamba โดยเฉพาะอย่างยิ่งโมดูลหน่วยความจำระยะยาว (LMM) เพียงอย่างเดียวได้เอาชนะโมเดลพื้นฐานในหลายๆ งาน แสดงให้เห็นถึงความสามารถในการเรียนรู้ที่เป็นอิสระโดยไม่มีหน่วยความจำระยะสั้น (การใส่ใจ)
ในการทดสอบ "เข็มในกองฟาง" ที่ออกแบบมาเพื่อค้นหาเบาะแสที่ละเอียดในข้อความยาวๆ Titans รักษาความแม่นยำไว้ที่ประมาณ 90% แม้ว่าความยาวของลำดับจะเพิ่มขึ้นจาก 2k เป็น 16k ทีมงานระบุว่าการทดสอบมาตรฐานไม่ได้แสดงให้เห็นถึงข้อได้เปรียบของ Titans ในการจัดการข้อความยาวๆ อย่างเต็มที่ Titans ยังมีประสิทธิภาพเหนือกว่าโมเดลต่างๆ เช่น GPT4, Mamba และแม้แต่ Llama3.1 พร้อม RAG ในงานที่ต้องอนุมานจากข้อเท็จจริงที่กระจายอยู่ทั่วเอกสารยาวมาก
Titans ยังแสดงประสิทธิภาพที่น่าประทับใจในด้านเฉพาะ เช่น การทำนายอนุกรมเวลาและการสร้างแบบจำลองลำดับ DNA
ทีมงานเบื้องหลัง Titans
การวิจัยดำเนินการโดยทีมงานจาก Google Research NYC algorithms and optimization group ซึ่งปัจจุบันไม่ได้เป็นส่วนหนึ่งของ Google DeepMind
- Ali Behrouz นักศึกษาฝึกงานจาก Cornell University เป็นผู้เขียนคนแรกของบทความ
- Zhong Peilin ศิษย์เก่า Tsinghua University และผู้สำเร็จการศึกษาระดับปริญญาเอก จาก Columbia University เป็นนักวิทยาศาสตร์การวิจัยที่ Google ตั้งแต่ปี 2021 เขาโดดเด่นจากการตีพิมพ์บทความในฐานะผู้เขียนคนแรกที่ STOC 2016 ในฐานะนักศึกษาปริญญาตรี
- Vahab Mirrokni, a Google Fellow และ VP เป็นหัวหน้าทีม
ทีมงานได้พัฒนา Titans โดยใช้ Pytorch และ Jax และวางแผนที่จะเปิดตัวโค้ดสำหรับการฝึกอบรมและการประเมินในเร็วๆ นี้