- Published on
Hukum Ketumpatan Model Besar: Perspektif Baru Melangkaui Undang-undang Penskalaan
Idea Teras
Satu pasukan dari Universiti Tsinghua yang diketuai oleh Profesor Liu Zhiyuan telah mencadangkan "hukum ketumpatan" untuk model besar. Hukum ini menyatakan bahawa ketumpatan keupayaan model meningkat dua kali ganda kira-kira setiap 100 hari. Hukum ini, yang serupa dengan Hukum Moore dalam industri cip, menumpukan pada kecekapan parameter model dan bukan hanya pada skala.
Latar Belakang dan Motivasi
Undang-undang penskalaan tradisional menerangkan bagaimana prestasi model meningkat dengan peningkatan saiz (parameter) dan data latihan. "Hukum ketumpatan" yang baru memperkenalkan perspektif yang berbeza, menekankan penggunaan parameter yang berkesan dan peningkatan pesat dalam kecekapan model dari masa ke masa. Pasukan penyelidik memperkenalkan konsep "ketumpatan keupayaan" untuk mengukur nisbah parameter efektif kepada parameter sebenar.
Konsep Utama
- Ketumpatan Keupayaan: Ditakrifkan sebagai nisbah "parameter efektif" kepada bilangan parameter sebenar dalam model.
- Parameter Efektif: Bilangan minimum parameter yang diperlukan oleh model rujukan untuk mencapai prestasi yang sama seperti model sasaran.
- Model Rujukan: Model yang digunakan sebagai penanda aras untuk menentukan kiraan parameter efektif model lain.
- Anggaran Kerugian: Proses menyesuaikan hubungan antara parameter model dan kerugian menggunakan siri model rujukan.
- Anggaran Prestasi: Proses mewujudkan pemetaan lengkap antara kerugian dan prestasi, dengan mengambil kira kemunculan keupayaan baru dalam model.
Hukum Ketumpatan
Ketumpatan keupayaan maksimum model bahasa besar (LLM) meningkat secara eksponensial dari masa ke masa. Formula untuk pertumbuhan ini dinyatakan sebagai: ln(ρmax) = At + B, di mana ρmax adalah ketumpatan keupayaan maksimum pada masa t. Hukum ini mencadangkan bahawa prestasi model terkini boleh dicapai dengan separuh parameter setiap 3.3 bulan (kira-kira 100 hari).
Implikasi Hukum Ketumpatan
- Pengurangan Kos Inferens: Kos inferens model berkurang secara eksponensial dari masa ke masa. Contohnya, kos per juta token telah menurun dengan ketara dari GPT-3.5 hingga Gemini-1.5-Flash.
- Pertumbuhan Ketumpatan Keupayaan yang Dipercepat: Sejak pelancaran ChatGPT, kadar peningkatan dalam ketumpatan keupayaan telah dipercepatkan.
- Konvergensi Hukum Moore dan Hukum Ketumpatan: Persilangan ketumpatan cip yang meningkat (Hukum Moore) dan ketumpatan keupayaan model (Hukum Ketumpatan) menunjukkan potensi untuk AI dalam peranti yang berkuasa.
- Batasan Pemampatan Model: Teknik pemampatan model sahaja mungkin tidak dapat meningkatkan ketumpatan keupayaan. Malah, kebanyakan model termampat mempunyai ketumpatan yang lebih rendah daripada model asalnya.
- Kitaran Hayat Model yang Dipendekkan: Peningkatan pesat dalam ketumpatan keupayaan bermakna jangka hayat efektif model berprestasi tinggi menjadi lebih pendek, yang membawa kepada tempoh yang singkat untuk keuntungan.
Konteks Lebih Luas
Hukum ketumpatan adalah sebahagian daripada trend yang lebih besar di mana enjin teras era AI—elektrik, kuasa pengkomputeran, dan kecerdasan—semuanya mengalami pertumbuhan ketumpatan yang pesat.
- Ketumpatan tenaga bateri telah meningkat empat kali ganda dalam 20 tahun yang lalu.
- Ketumpatan transistor cip meningkat dua kali ganda setiap 18 bulan (Hukum Moore).
- Ketumpatan keupayaan model AI meningkat dua kali ganda setiap 100 hari.
Trend ini mencadangkan peralihan ke arah AI yang lebih cekap, mengurangkan permintaan untuk tenaga dan sumber pengkomputeran. Kebangkitan pengkomputeran tepi dan model AI tempatan dijangka, yang membawa kepada masa depan di mana AI ada di mana-mana.
Perkara Tambahan
- Pasukan penyelidik menggunakan 29 model besar sumber terbuka yang digunakan secara meluas untuk menganalisis trend ketumpatan keupayaan.
- Kajian ini menekankan bahawa bergantung semata-mata pada algoritma pemampatan model mungkin tidak mencukupi untuk meningkatkan ketumpatan keupayaan model.
- Kertas penyelidikan boleh didapati di: Densing Law of LLMs