- Published on
Meta'nın BLT Mimarisi Tokenizasyonu Ortadan Kaldırıyor
Giriş
Meta, Chicago Üniversitesi ve diğer kurumlarla işbirliği içinde, yakın zamanda "Byte Latent Transformer: Yamalar Tokenlardan Daha İyi Ölçeklenir" başlıklı çığır açan bir makale yayınladı. Bu araştırma, özellikle Hacker News gibi platformlarda önemli tartışmalara yol açtı. Temel kavram, geleneksel tokenizasyon sürecinin yerini alabilecek yeni bir dil modeli yaklaşımı etrafında dönüyor. Bazı araştırmacılar tokenizasyonun ötesine geçmek için istekli olduklarını ifade ederken, heyecan açıkça hissediliyor. Ancak, tokenizasyonun birçok mevcut modelin temelini oluşturduğu göz önüne alındığında, bu yeni teknolojinin entegrasyonunun fizibilitesi konusunda da endişeler var.
Tokenizasyonun Sorunları
Geleneksel dil modelleri, verileri ön işlemek için tokenizasyona güvenir. Ancak bu yöntemin çeşitli sınırlamaları vardır. Bunlar şunları içerir:
- Tüm diller veya bağlamlar için yeterli olmayabilecek sabit bir kelime haznesi boyutu.
- Çok dilli veya gürültülü verileri işlemede verimsizlikler.
- Sıkıştırma sezgileri nedeniyle önyargıların ortaya çıkması.
Bayt Latent Transformer (BLT)
Araştırma, geleneksel tokenizasyon yaklaşımına meydan okuyan bir çözüm olarak Bayt Latent Transformer'ı (BLT) sunuyor. BLT, tokenlarla çalışmak yerine, doğrudan ham bayt akışlarını modelliyor. Hesaplama verimliliğini optimize ederek, bu baytları entropilerine göre dinamik olarak yamalar halinde gruplandırıyor. Bu, BLT'nin statik bir kelime haznesine dayanmadan doğrudan orijinal bayt verilerinden öğrenebileceği anlamına gelir. BLT, çeşitli ve gürültülü girdileri daha etkili bir şekilde işlemek için tasarlanmıştır.
BLT'nin temel özellikleri şunlardır:
- Entropi Tabanlı Yamalama: BLT, baytları bilgi karmaşıklıklarına göre dinamik olarak yamalar halinde gruplandırır. Bu yaklaşım, yüksek entropili (karmaşık) bölgelere daha fazla hesaplama kaynağı ayırır ve düşük entropili alanlarda kaynak tasarrufu sağlar.
- Verimli Ölçeklendirme: BLT, yama boyutlarını optimize eder ve LLaMA gibi token tabanlı modellere kıyasla benzer veya daha iyi performans elde ederek hafif yerel modeller kullanır. Ayrıca, çıkarım sırasında hesaplama maliyetlerini %50'ye kadar azaltır.
- Sağlamlık ve Esneklik: BLT, karakter düzeyinde anlayış gerektiren, gürültülü girdileri işleyen veya uzun kuyruklu verilere genelleme yapan görevlerde olağanüstü performans gösterir ve birçok kıyaslamada token tabanlı mimarileri geride bırakır.
BLT Mimarisi
BLT mimarisi şunlardan oluşur:
- Yama temsilleri üzerinde çalışan geniş bir global otoregresif dil modeli.
- Bayt dizilerini yamalar halinde kodlayan ve yama temsillerini tekrar baytlara çözen iki küçük yerel model.
Global Latent Transformer Modeli
Global latent Transformer, giriş yama temsillerini çıkış yama temsillerine eşleyen otoregresif bir modeldir. Blok nedensel dikkat maskesi kullanır.
Yerel Kodlayıcı
Yerel kodlayıcı modeli, giriş bayt dizilerini etkileyici yama temsillerine verimli bir şekilde eşleyen hafif bir Transformer tabanlı modeldir. Her Transformer katmanından sonra, bayt temsillerini yama temsillerine havuzlayan çapraz dikkat katmanlarına sahiptir.
- Bayt Gömme: Giriş bayt dizileri bir matris kullanılarak gömülür.
- Transformer Katmanları: Bir dizi alternatif Transformer ve çapraz dikkat katmanı, gömme işlemlerini yama temsillerine dönüştürür. Bu, yerel bir blok nedensel dikkat maskesini içerir.
Yerel Kod Çözücü
Yerel kod çözücü, başka bir hafif Transformer tabanlı modeldir. Global yama temsillerini orijinal baytlara çözer. Bir dizi çapraz dikkat ve Transformer katmanı kullanır. Bu, daha önce çözülmüş baytlara dayanarak orijinal bayt dizilerinin tahmin edilmesini sağlar.
Ölçeklendirme Eğilimleri
Araştırma, daha fazla BLT model geliştirmesine bilgi sağlamak için bayt düzeyindeki modellerin ölçeklendirme eğilimlerini araştırıyor. Bu şunları içerir:
- Hesaplama açısından optimal eğitim şemalarındaki eğilimlerin karşılaştırılması.
- Büyük veri kümelerinde 8B parametreli modellerin eğitilmesi ve aşağı akış görevlerinde performansın değerlendirilmesi.
- Çıkarım maliyet kontrollü ayarlarda ölçeklendirme eğilimlerinin ölçülmesi.
Parametre Eşleşmeli Hesaplama Açısından Optimal Ölçeklendirme Eğilimleri
Araştırmacılar, Llama 2 veri kümesini kullanarak, farklı boyutlarda (1B ila 8B parametre) çeşitli BPE ve BLT modellerini hesaplama açısından optimal ayarlarla eğitti. Eğitim flopları, dil modelleme performansına karşı çizildi. BLT modelleri, BPE modelleriyle eşleşti veya onlardan daha iyi performans gösterdi ve bu eğilim, model boyutları ve floplar arttıkça devam etti.
BLT-1T Veri Kümesi
8B parametreli bir BLT modeli, daha büyük bir yüksek kaliteli veri kümesi olan BLT-1T üzerinde eğitildi. Sonuçlar, BLT-Entropi modelinin 7 görevin 4'ünde Llama 3 modelinden daha iyi performans gösterdiğini gösterdi. Bu iyileşme, dinamik yamalar kullanarak eğitim hesaplamasının daha iyi kullanılmasına ve tokenlar yerine bayt düzeyinde bilgi modellemesine bağlanıyor.
Yama Ölçeklendirme
Araştırma, yamaların tokenlardan daha kolay ölçeklendiğini vurguluyor. Yama uzunluğu ölçeklendirme üzerine yapılan çalışma, yama tabanlı BLT mimarisinin hem yama hem de model boyutlarını artırarak daha iyi ölçeklendirme eğilimleri elde edebileceğini gösteriyor.
Bayt Modellemesi Yoluyla Sağlamlık
Karakter Düzeyi Görevler
BLT modeli, gürültülü HellaSwag testlerinde üstün sağlamlık göstererek, tokenizasyon tabanlı modelleri ortalama %8 puan aştı. Hatta daha büyük veri kümelerinde eğitilmiş Llama 3.1 modellerinden bile daha iyi performans gösterdi.
Düşük Kaynaklı Diller
BLT, popüler dil çiftlerinde Llama 3 ile karşılaştırılabilir veya biraz daha iyi performans gösteriyor. Ancak, uzun kuyruklu bayt dizilerine genellemede bayt modellemesinin etkinliğini göstererek, düşük kaynaklı dil çiftlerinde Llama 3'ü önemli ölçüde geride bırakıyor.
Llama 3'ten BLT'ye
Yazarlar, BLT modellerinin önceden eğitilmiş tokenizasyon tabanlı modelleri kullanabileceği bir iş akışını araştırdılar. Bu, BLT'nin küresel tokenizasyon parametrelerini önceden eğitilmiş bir Llama 3.1 ile başlatarak yapıldı. Sonuçlar, Llama 3.1 ile başlatılan BLT'nin aynı sayıda flopla eğitilmiş hem Llama 3'ten hem de temel BLT modellerinden daha iyi performans gösterdiğini gösterdi.