สถาปัตยกรรม BLT ของ Meta ยกเลิกการทำ Tokenization

บทนำ

Meta ร่วมกับผู้ร่วมงานจาก University of Chicago และสถาบันอื่นๆ ได้เผยแพร่บทความที่ก้าวล้ำชื่อ "Byte Latent Transformer: Patches Scale Better Than Tokens" งานวิจัยนี้ได้จุดประกายการอภิปรายอย่างมาก โดยเฉพาะอย่างยิ่งบนแพลตฟอร์มเช่น Hacker News แนวคิดหลักคือแนวทางใหม่สำหรับโมเดลภาษาที่อาจมาแทนที่กระบวนการทำ Tokenization แบบดั้งเดิม ความตื่นเต้นนั้นชัดเจน โดยนักวิจัยบางคนแสดงความกระตือรือร้นที่จะก้าวข้าม Tokenizer อย่างไรก็ตาม ยังมีความกังวลเกี่ยวกับความเป็นไปได้ในการรวมเทคโนโลยีใหม่นี้ เนื่องจาก Tokenization เป็นรากฐานของโมเดลที่มีอยู่มากมาย

ปัญหาของการทำ Tokenization

โมเดลภาษาแบบดั้งเดิมอาศัยการทำ Tokenization เพื่อประมวลผลข้อมูลล่วงหน้า อย่างไรก็ตาม วิธีนี้มีข้อจำกัดหลายประการ ได้แก่:

ขนาดคำศัพท์ที่กำหนด ซึ่งอาจไม่เพียงพอสำหรับทุกภาษาหรือบริบท
ความไม่มีประสิทธิภาพในการประมวลผลข้อมูลหลายภาษาหรือข้อมูลที่มีสัญญาณรบกวน
การนำเสนออคติเนื่องจากวิธีการบีบอัด

Byte Latent Transformer (BLT)

งานวิจัยได้นำเสนอ Byte Latent Transformer (BLT) เป็นโซลูชันที่ท้าทายแนวทางการทำ Tokenization แบบเดิม แทนที่จะทำงานกับ Token BLT จะสร้างแบบจำลองสตรีมไบต์ดิบโดยตรง ซึ่งจะจัดกลุ่มไบต์เหล่านี้แบบไดนามิกเป็นแพตช์ตามเอนโทรปี เพื่อเพิ่มประสิทธิภาพในการคำนวณ ซึ่งหมายความว่า BLT สามารถเรียนรู้ได้โดยตรงจากข้อมูลไบต์ดั้งเดิมโดยไม่ต้องอาศัยคำศัพท์คงที่ BLT ได้รับการออกแบบมาเพื่อจัดการกับอินพุตที่หลากหลายและมีสัญญาณรบกวนได้อย่างมีประสิทธิภาพมากขึ้น

คุณสมบัติที่สำคัญของ BLT ได้แก่:

การทำแพตช์ตามเอนโทรปี: BLT จัดกลุ่มไบต์แบบไดนามิกเป็นแพตช์ตามความซับซ้อนของข้อมูล วิธีการนี้จัดสรรทรัพยากรการคำนวณมากขึ้นให้กับภูมิภาคที่มีเอนโทรปีสูง (ซับซ้อน) และประหยัดทรัพยากรในพื้นที่ที่มีเอนโทรปีต่ำ
การปรับขนาดที่มีประสิทธิภาพ: BLT ปรับขนาดแพตช์ให้เหมาะสมและใช้โมเดลโลคัลน้ำหนักเบา ซึ่งให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ใช้ Token เช่น LLaMA นอกจากนี้ยังช่วยลดต้นทุนการคำนวณได้ถึง 50% ในระหว่างการอนุมาน
ความทนทานและความยืดหยุ่น: BLT แสดงให้เห็นถึงประสิทธิภาพที่ยอดเยี่ยมในงานที่ต้องการความเข้าใจในระดับอักขระ การจัดการกับอินพุตที่มีสัญญาณรบกวน หรือการสรุปข้อมูลระยะยาว ซึ่งเหนือกว่าสถาปัตยกรรมที่ใช้ Token ในเกณฑ์มาตรฐานหลายประการ

สถาปัตยกรรม BLT

สถาปัตยกรรม BLT ประกอบด้วย:

โมเดลภาษาแบบ Autoregressive ทั่วไปขนาดใหญ่ที่ทำงานบนการแสดงแพตช์
โมเดลโลคัลขนาดเล็กสองตัวที่เข้ารหัสลำดับไบต์เป็นแพตช์และถอดรหัสการแสดงแพตช์กลับเป็นไบต์

โมเดล Global Latent Transformer

Global Latent Transformer เป็นโมเดลแบบ Autoregressive ที่จับคู่การแสดงแพตช์อินพุตกับการแสดงแพตช์เอาต์พุต โดยใช้ Block Causal Attention Mask

Local Encoder

โมเดล Local Encoder เป็นโมเดลที่ใช้ Transformer น้ำหนักเบา ซึ่งจับคู่ลำดับไบต์อินพุตกับการแสดงแพตช์ที่สื่อความหมายได้อย่างมีประสิทธิภาพ มีชั้น Cross-Attention หลังจากแต่ละชั้น Transformer ซึ่งรวมการแสดงไบต์เป็นการแสดงแพตช์

Byte Embedding: ลำดับไบต์อินพุตถูกฝังโดยใช้เมทริกซ์
Transformer Layers: ชุดของชั้น Transformer และ Cross-Attention ที่สลับกันแปลงการฝังเป็นการแสดงแพตช์ ซึ่งรวมถึง Local Block Causal Attention Mask

Local Decoder

Local Decoder เป็นอีกหนึ่งโมเดลที่ใช้ Transformer น้ำหนักเบา โดยจะถอดรหัสการแสดงแพตช์ทั่วไปเป็นไบต์ดั้งเดิม โดยใช้ชุดของชั้น Cross-Attention และ Transformer ซึ่งช่วยให้สามารถทำนายลำดับไบต์ดั้งเดิมตามไบต์ที่ถอดรหัสก่อนหน้านี้

แนวโน้มการปรับขนาด

งานวิจัยสำรวจแนวโน้มการปรับขนาดของโมเดลระดับไบต์เพื่อแจ้งการพัฒนาโมเดล BLT เพิ่มเติม ซึ่งรวมถึง:

การเปรียบเทียบแนวโน้มในรูปแบบการฝึกอบรมที่เหมาะสมที่สุดในการคำนวณ
การฝึกอบรมโมเดลพารามิเตอร์ 8B บนชุดข้อมูลขนาดใหญ่และการประเมินประสิทธิภาพในงานปลายน้ำ
การวัดแนวโน้มการปรับขนาดในการตั้งค่าที่ควบคุมต้นทุนการอนุมาน

แนวโน้มการปรับขนาดที่เหมาะสมที่สุดในการคำนวณที่ตรงกับพารามิเตอร์

โดยใช้ชุดข้อมูล Llama 2 นักวิจัยได้ฝึกอบรมโมเดล BPE และ BLT ขนาดต่างๆ (พารามิเตอร์ 1B ถึง 8B) ด้วยการตั้งค่าที่เหมาะสมที่สุดในการคำนวณ จำนวน Flop การฝึกอบรมถูกพล็อตเทียบกับประสิทธิภาพการสร้างแบบจำลองภาษา โมเดล BLT จับคู่หรือมีประสิทธิภาพเหนือกว่าโมเดล BPE และแนวโน้มนี้ยังคงมีอยู่เมื่อขนาดโมเดลและ Flop เพิ่มขึ้น

ชุดข้อมูล BLT-1T

โมเดล BLT พารามิเตอร์ 8B ได้รับการฝึกอบรมบนชุดข้อมูลคุณภาพสูงขนาดใหญ่ขึ้น BLT-1T ผลลัพธ์แสดงให้เห็นว่าโมเดล BLT-Entropy มีประสิทธิภาพเหนือกว่าโมเดล Llama 3 ใน 4 จาก 7 งาน การปรับปรุงนี้เกิดจากการใช้การคำนวณการฝึกอบรมที่ดีขึ้นโดยใช้แพตช์แบบไดนามิกและการสร้างแบบจำลองข้อมูลระดับไบต์แทนที่จะเป็น Token

การปรับขนาดแพตช์

งานวิจัยเน้นว่าแพตช์ปรับขนาดได้ง่ายกว่า Token การศึกษาเกี่ยวกับการปรับขนาดความยาวแพตช์แสดงให้เห็นว่าสถาปัตยกรรม BLT ที่ใช้แพตช์สามารถบรรลุแนวโน้มการปรับขนาดที่ดีขึ้นได้โดยการเพิ่มทั้งขนาดแพตช์และขนาดโมเดล

ความทนทานผ่านการสร้างแบบจำลองไบต์

งานระดับอักขระ

โมเดล BLT แสดงให้เห็นถึงความทนทานที่เหนือกว่าในการทดสอบ HellaSwag ที่มีสัญญาณรบกวน โดยเกินกว่าโมเดลที่ใช้ Tokenizer โดยเฉลี่ย 8 เปอร์เซ็นต์ นอกจากนี้ยังทำได้ดีกว่าโมเดล Llama 3.1 ที่ได้รับการฝึกอบรมบนชุดข้อมูลขนาดใหญ่กว่า

ภาษาที่มีทรัพยากรต่ำ

BLT ทำงานได้เทียบเท่าหรือดีกว่า Llama 3 เล็กน้อยในคู่ภาษาที่เป็นที่นิยม อย่างไรก็ตาม BLT เหนือกว่า Llama 3 อย่างมากในคู่ภาษาที่มีทรัพยากรต่ำ ซึ่งแสดงให้เห็นถึงประสิทธิภาพของการสร้างแบบจำลองไบต์ในการสรุปไปยังลำดับไบต์แบบ Long-Tail

จาก Llama 3 สู่ BLT

ผู้เขียนได้ตรวจสอบเวิร์กโฟลว์ที่โมเดล BLT สามารถใช้โมเดลที่ใช้ Tokenizer ที่ได้รับการฝึกอบรมล่วงหน้าได้ ซึ่งทำได้โดยการเริ่มต้นพารามิเตอร์ Tokenizer ทั่วไปของ BLT ด้วย Llama 3.1 ที่ได้รับการฝึกอบรมล่วงหน้า ผลลัพธ์แสดงให้เห็นว่า BLT ที่เริ่มต้นด้วย Llama 3.1 มีประสิทธิภาพเหนือกว่าทั้ง Llama 3 และโมเดล BLT พื้นฐานที่ได้รับการฝึกอบรมด้วยจำนวน Flop เท่ากัน