Published on

Yeni Dikkat Mekanizması KV Önbellek Azaltma Adımı

Yazarlar
  • avatar
    Ad
    Ajax
    Twitter

MFA'nın Temel Yenilikleri

MFA'nın geliştirilmesi, teorik performans sınırlarına yaklaşırken kaynak tüketimini en aza indiren bir dikkat mekanizması oluşturma hedefiyle yönlendirildi. MFA'nın tasarımında üç temel yenilik bulunmaktadır:

  • Model kapasitesini en üst düzeye çıkarmak için dikkat başlıklarının sayısını ve boyutunu önemli ölçüde artırmak.
  • Dikkat başlığı sayısını ve boyutlarını genişletirken parametre verimliliğini korumak için agresif bir düşük dereceli ayrışım stratejisi kullanmak.
  • Artan model karmaşıklığında bile bellek tüketimini minimumda tutmak için tek bir anahtar-değer başlığı tasarımı kullanmak.

Kapasite Ölçümü ve Karşılaştırma

MFA ve diğer dikkat mekanizmalarını daha ayrıntılı analiz etmek için ekip iki temel metrik tanıttı:

  • Toplam Etkili Derece (TER): Dikkat başlıklarının sayısı ile Başlık başına Faktörizasyon derecesinin (FRH) çarpımı.
  • Paylaşılan Gizli Alt Uzay Boyutu (SLSD): Tüm dikkat başlıkları tarafından paylaşılan gizli uzayın boyutu.

MFA, MQA'ya kıyasla daha yüksek SLSD ve TER elde eder. MLA ile karşılaştırıldığında, MFA benzer parametre bütçeleriyle daha küçük bir KV önbellek boyutu ve daha yüksek TER elde ederken, karşılaştırılabilir bir SLSD'yi korur. Geleneksel MHA ile karşılaştırıldığında, MFA'nın SLSD'si daha küçük olmasına rağmen daha yüksek bir TER'e sahiptir.

Deneysel Sonuçlar

Yeni mimarinin performansını daha büyük ölçeklerde değerlendirmek için 1B'den 7B'ye kadar parametreye ve 10B'den 1T'ye kadar eğitim verisine sahip modelleri test ederek kapsamlı deneyler yapıldı. MFA, geleneksel MHA ile karşılaştırılabilir ölçekleme yetenekleri göstererek daha büyük ölçeklerde bile mükemmel performansı korudu. MFA-KR biraz daha düşük performans gösterirken, ölçekleme eğilimi MHA ile aynı doğrultudaydı. MFA ve MFA-KR'nin bellek tasarrufu avantajları, model boyutuyla birlikte genişlemeye devam etti; MFA %87,5 bellek tasarrufu sağlarken MFA-KR en büyük ölçekte bellek kullanımını %6,25'e düşürdü.

Ablasyon Çalışmaları

Ablasyon çalışmaları, MFA ve MFA-KR'nin etkinliğini doğruladı. Performans avantajları ayrıca çeşitli ana akım konumsal kodlama yöntemlerinde de doğrulandı.

Genel Bakış

MFA, basit bir tasarımla önemli iyileştirmeler sunarak, ekstra mühendislik karmaşıklığı eklemeden LLM çıkarımındaki bellek darboğazını etkili bir şekilde ele almaktadır. Mevcut Transformer ekosistemine sorunsuz bir şekilde entegre olarak çeşitli senaryolarda LLM'lerin uygulamasını hızlandırır.