Published on

กฎความหนาแน่นของโมเดลขนาดใหญ่ มุมมองใหม่ที่เหนือกว่ากฎการปรับขนาด

ผู้เขียน
  • avatar
    ชื่อ
    Ajax
    Twitter

แนวคิดหลัก

ทีมจากมหาวิทยาลัยชิงหวา นำโดยศาสตราจารย์หลิว จื้อหยวน ได้เสนอ "กฎความหนาแน่น" สำหรับโมเดลขนาดใหญ่ ซึ่งชี้ให้เห็นว่าความหนาแน่นของความสามารถของโมเดลเพิ่มขึ้นเป็นสองเท่าโดยประมาณทุกๆ 100 วัน กฎนี้เทียบได้กับกฎของมัวร์ในอุตสาหกรรมชิป โดยมุ่งเน้นไปที่ประสิทธิภาพของพารามิเตอร์ของโมเดลมากกว่าแค่ขนาด

ที่มาและแรงจูงใจ

กฎการปรับขนาดแบบดั้งเดิมอธิบายว่าประสิทธิภาพของโมเดลดีขึ้นอย่างไรเมื่อขนาด (พารามิเตอร์) และข้อมูลการฝึกเพิ่มขึ้น "กฎความหนาแน่น" ใหม่นี้แนะนำมุมมองที่แตกต่าง โดยเน้นที่การใช้พารามิเตอร์อย่างมีประสิทธิภาพและการปรับปรุงประสิทธิภาพของโมเดลอย่างรวดเร็วเมื่อเวลาผ่านไป ทีมวิจัยได้แนะนำแนวคิดเรื่อง "ความหนาแน่นของความสามารถ" เพื่อวัดอัตราส่วนของพารามิเตอร์ที่มีประสิทธิภาพต่อพารามิเตอร์จริง

แนวคิดหลัก

  • ความหนาแน่นของความสามารถ: กำหนดเป็นอัตราส่วนของ "พารามิเตอร์ที่มีประสิทธิภาพ" ต่อจำนวนพารามิเตอร์จริงในโมเดล
  • พารามิเตอร์ที่มีประสิทธิภาพ: จำนวนพารามิเตอร์ขั้นต่ำที่โมเดลอ้างอิงต้องการเพื่อให้ได้ประสิทธิภาพเท่ากับโมเดลเป้าหมาย
  • โมเดลอ้างอิง: โมเดลที่ใช้เป็นเกณฑ์มาตรฐานเพื่อกำหนดจำนวนพารามิเตอร์ที่มีประสิทธิภาพของโมเดลอื่นๆ
  • การประมาณค่า Loss: กระบวนการปรับความสัมพันธ์ระหว่างพารามิเตอร์ของโมเดลและ Loss โดยใช้ชุดของโมเดลอ้างอิง
  • การประมาณค่าประสิทธิภาพ: กระบวนการสร้างแผนที่ที่สมบูรณ์ระหว่าง Loss และประสิทธิภาพ โดยพิจารณาถึงการเกิดขึ้นของความสามารถใหม่ๆ ในโมเดล

กฎความหนาแน่น

ความหนาแน่นของความสามารถสูงสุดของโมเดลภาษาขนาดใหญ่ (LLMs) เพิ่มขึ้นแบบทวีคูณเมื่อเวลาผ่านไป สูตรสำหรับการเติบโตนี้แสดงเป็น: ln(ρmax) = At + B โดยที่ ρmax คือความหนาแน่นของความสามารถสูงสุด ณ เวลา t กฎนี้ชี้ให้เห็นว่าประสิทธิภาพของโมเดลที่ล้ำสมัยสามารถทำได้โดยใช้พารามิเตอร์เพียงครึ่งเดียวทุกๆ 3.3 เดือน (ประมาณ 100 วัน)

นัยของกฎความหนาแน่น

  • ลดต้นทุนการอนุมาน: ต้นทุนการอนุมานของโมเดลลดลงแบบทวีคูณเมื่อเวลาผ่านไป ตัวอย่างเช่น ต้นทุนต่อล้านโทเค็นลดลงอย่างมากจาก GPT-3.5 เป็น Gemini-1.5-Flash
  • การเติบโตของความหนาแน่นของความสามารถที่เร่งตัวขึ้น: นับตั้งแต่การเปิดตัว ChatGPT อัตราการเพิ่มขึ้นของความหนาแน่นของความสามารถได้เร่งตัวขึ้น
  • การบรรจบกันของกฎของมัวร์และกฎความหนาแน่น: การตัดกันของความหนาแน่นของชิปที่เพิ่มขึ้น (กฎของมัวร์) และความหนาแน่นของความสามารถของโมเดล (กฎความหนาแน่น) บ่งชี้ถึงศักยภาพของ AI บนอุปกรณ์ที่มีประสิทธิภาพ
  • ข้อจำกัดของการบีบอัดโมเดล: เทคนิคการบีบอัดโมเดลเพียงอย่างเดียวอาจไม่สามารถเพิ่มความหนาแน่นของความสามารถได้ ในความเป็นจริง โมเดลที่บีบอัดส่วนใหญ่มีความหนาแน่นต่ำกว่ารุ่นดั้งเดิม
  • วงจรชีวิตของโมเดลที่สั้นลง: การเพิ่มขึ้นอย่างรวดเร็วของความหนาแน่นของความสามารถหมายความว่าอายุการใช้งานที่มีประสิทธิภาพของโมเดลที่มีประสิทธิภาพสูงกำลังสั้นลง ทำให้เกิดช่วงเวลาสั้นๆ สำหรับผลกำไร

บริบทที่กว้างขึ้น

กฎความหนาแน่นเป็นส่วนหนึ่งของแนวโน้มที่ใหญ่กว่าที่เครื่องยนต์หลักของยุค AI ได้แก่ ไฟฟ้า กำลังประมวลผล และปัญญา ต่างก็กำลังประสบกับการเติบโตของความหนาแน่นอย่างรวดเร็ว

  • ความหนาแน่นของพลังงานแบตเตอรี่เพิ่มขึ้นสี่เท่าในช่วง 20 ปีที่ผ่านมา
  • ความหนาแน่นของทรานซิสเตอร์ชิปเพิ่มขึ้นเป็นสองเท่าทุกๆ 18 เดือน (กฎของมัวร์)
  • ความหนาแน่นของความสามารถของโมเดล AI เพิ่มขึ้นเป็นสองเท่าทุกๆ 100 วัน

แนวโน้มนี้ชี้ให้เห็นถึงการเปลี่ยนแปลงไปสู่ AI ที่มีประสิทธิภาพมากขึ้น ลดความต้องการพลังงานและทรัพยากรการประมวลผล การเพิ่มขึ้นของการประมวลผลแบบ Edge และโมเดล AI ในท้องถิ่นคาดว่าจะเกิดขึ้น นำไปสู่อนาคตที่ AI มีอยู่ทุกหนทุกแห่ง

ประเด็นเพิ่มเติม

  • ทีมวิจัยใช้โมเดลขนาดใหญ่โอเพนซอร์สที่ใช้กันอย่างแพร่หลาย 29 โมเดลเพื่อวิเคราะห์แนวโน้มของความหนาแน่นของความสามารถ
  • การศึกษาเน้นว่าการพึ่งพาอัลกอริทึมการบีบอัดโมเดลเพียงอย่างเดียวอาจไม่เพียงพอที่จะเพิ่มความหนาแน่นของความสามารถของโมเดล
  • บทความวิจัยมีอยู่ที่: Densing Law of LLMs

โมเดลภาษาขนาดใหญ่กำลังพัฒนาอย่างรวดเร็ว การทำความเข้าใจกฎความหนาแน่นช่วยให้เราเห็นภาพที่ชัดเจนขึ้นเกี่ยวกับวิวัฒนาการของ AI และผลกระทบที่อาจเกิดขึ้นต่ออนาคต ด้วยความหนาแน่นของความสามารถที่เพิ่มขึ้นอย่างต่อเนื่อง เราอาจเห็น AI ที่มีประสิทธิภาพมากขึ้นและสามารถเข้าถึงได้มากขึ้นในอนาคตอันใกล้นี้ การวิจัยนี้ยังชี้ให้เห็นถึงความสำคัญของการมุ่งเน้นไปที่ประสิทธิภาพของพารามิเตอร์มากกว่าแค่ขนาดของโมเดล ซึ่งเป็นแนวทางที่อาจเป็นประโยชน์สำหรับการพัฒนาโมเดล AI ในอนาคต นอกจากนี้ การที่กฎความหนาแน่นสอดคล้องกับกฎของมัวร์ยังบ่งชี้ถึงศักยภาพในการพัฒนา AI บนอุปกรณ์ที่ทรงพลัง ซึ่งจะนำไปสู่การใช้งาน AI ที่หลากหลายและแพร่หลายมากขึ้น