메타의 BLT 아키텍처, 토큰화 방식 제거: 바이트 잠재 트랜스포머의 혁신

서론

메타(Meta)는 시카고 대학교 및 여러 기관과의 협력을 통해 "Byte Latent Transformer: Patches Scale Better Than Tokens"라는 획기적인 논문을 발표했습니다. 이 연구는 특히 Hacker News와 같은 플랫폼에서 상당한 논의를 불러일으켰습니다. 핵심 개념은 기존의 토큰화 과정을 대체할 수 있는 새로운 언어 모델 접근 방식에 관한 것입니다. 일부 연구자들은 토큰화 단계를 벗어나려는 열망을 표명하며 기대감을 나타내고 있습니다. 그러나 토큰화가 많은 기존 모델의 기반을 형성한다는 점을 고려할 때, 이 새로운 기술의 통합 가능성에 대한 우려도 있습니다.

토큰화의 문제점

기존 언어 모델은 데이터를 전처리하기 위해 토큰화에 의존합니다. 그러나 이 방법에는 몇 가지 제한 사항이 있습니다.

고정된 어휘 크기: 모든 언어나 문맥에 적합하지 않을 수 있습니다.
다국어 또는 노이즈 데이터 처리의 비효율성: 다양한 언어나 노이즈가 섞인 데이터를 처리하는 데 어려움이 있습니다.
압축 휴리스틱으로 인한 편향: 데이터 압축 과정에서 편향이 발생할 수 있습니다.

바이트 잠재 트랜스포머 (BLT)

이 연구에서는 기존의 토큰화 접근 방식에 도전하는 솔루션으로 바이트 잠재 트랜스포머(Byte Latent Transformer, BLT)를 소개합니다. BLT는 토큰 대신 원시 바이트 스트림을 직접 모델링합니다. 엔트로피를 기반으로 바이트를 동적으로 패치로 그룹화하여 계산 효율성을 최적화합니다. 즉, BLT는 고정된 어휘에 의존하지 않고 원본 바이트 데이터에서 직접 학습할 수 있습니다. BLT는 다양하고 노이즈가 많은 입력을 보다 효과적으로 처리하도록 설계되었습니다.

BLT의 주요 기능은 다음과 같습니다.

엔트로피 기반 패치: BLT는 정보 복잡성을 기반으로 바이트를 동적으로 패치로 그룹화합니다. 이 접근 방식은 엔트로피가 높은(복잡한) 영역에 더 많은 계산 리소스를 할당하고 엔트로피가 낮은 영역에서는 리소스를 절약합니다.
효율적인 확장: BLT는 패치 크기를 최적화하고 경량 로컬 모델을 사용하여 LLaMA와 같은 토큰 기반 모델과 비교하거나 더 나은 성능을 달성합니다. 또한 추론 중에 계산 비용을 최대 50%까지 줄입니다.
견고성 및 유연성: BLT는 문자 수준의 이해, 노이즈 입력 처리 또는 롱테일 데이터 일반화가 필요한 작업에서 뛰어난 성능을 보여주며 많은 벤치마크에서 토큰 기반 아키텍처를 능가합니다.

BLT 아키텍처

BLT 아키텍처는 다음과 같이 구성됩니다.

패치 표현을 기반으로 작동하는 대규모 글로벌 자기회귀 언어 모델
바이트 시퀀스를 패치로 인코딩하고 패치 표현을 바이트로 디코딩하는 두 개의 더 작은 로컬 모델

글로벌 잠재 트랜스포머 모델

글로벌 잠재 트랜스포머는 입력 패치 표현을 출력 패치 표현으로 매핑하는 자기회귀 모델입니다. 블록 인과적 주의 마스크를 사용합니다.

로컬 인코더

로컬 인코더 모델은 입력 바이트 시퀀스를 표현력 있는 패치 표현으로 효율적으로 매핑하는 경량 트랜스포머 기반 모델입니다. 각 트랜스포머 레이어 후 교차 주의 레이어를 사용하여 바이트 표현을 패치 표현으로 풀링합니다.

바이트 임베딩: 입력 바이트 시퀀스는 행렬을 사용하여 임베딩됩니다.
트랜스포머 레이어: 일련의 교차 주의 레이어와 트랜스포머 레이어가 번갈아 가며 임베딩을 패치 표현으로 변환합니다. 여기에는 로컬 블록 인과적 주의 마스크가 포함됩니다.

로컬 디코더

로컬 디코더는 또 다른 경량 트랜스포머 기반 모델입니다. 글로벌 패치 표현을 원본 바이트로 디코딩합니다. 일련의 교차 주의 레이어와 트랜스포머 레이어를 사용합니다. 이를 통해 이전에 디코딩된 바이트를 기반으로 원본 바이트 시퀀스를 예측할 수 있습니다.

확장 추세

이 연구에서는 추가적인 BLT 모델 개발을 알리기 위해 바이트 수준 모델의 확장 추세를 탐구합니다. 여기에는 다음이 포함됩니다.

계산적으로 최적의 훈련 체계의 추세 비교
대규모 데이터 세트에서 8B 파라미터 모델을 훈련하고 다운스트림 작업에서 성능 평가
추론 비용 제어 설정에서 확장 추세 측정

파라미터 일치 계산적으로 최적의 확장 추세

연구자들은 Llama 2 데이터 세트를 사용하여 계산적으로 최적의 설정으로 다양한 크기(1B ~ 8B 파라미터)의 BPE 및 BLT 모델을 훈련했습니다. 훈련 플롭스를 언어 모델링 성능에 대해 플로팅했습니다. BLT 모델은 BPE 모델과 일치하거나 능가했으며, 이러한 추세는 모델 크기와 플롭스가 증가함에 따라 지속되었습니다.

BLT-1T 데이터 세트

더 큰 고품질 데이터 세트인 BLT-1T에서 8B 파라미터 BLT 모델을 훈련했습니다. 결과에 따르면 BLT-엔트로피 모델이 7개 작업 중 4개에서 Llama 3 모델보다 뛰어난 성능을 보였습니다. 이러한 개선은 동적 패치를 사용한 훈련 계산의 더 나은 활용과 토큰 대신 바이트 수준 정보 모델링 덕분입니다.

패치 확장

이 연구에서는 패치가 토큰보다 더 쉽게 확장된다는 점을 강조합니다. 패치 길이 확장에 대한 연구에 따르면 패치 기반 BLT 아키텍처는 패치와 모델 크기를 모두 늘려 더 나은 확장 추세를 달성할 수 있습니다.

바이트 모델링을 통한 견고성

문자 수준 작업

BLT 모델은 노이즈가 많은 HellaSwag 테스트에서 뛰어난 견고성을 보여주며 토큰화 기반 모델을 평균 8% 포인트 초과합니다. 더 큰 데이터 세트에서 훈련된 Llama 3.1 모델보다도 성능이 뛰어났습니다.

저자원 언어

BLT는 인기 있는 언어 쌍에서 Llama 3과 비슷하거나 약간 더 나은 성능을 보입니다. 그러나 저자원 언어 쌍에서는 Llama 3을 크게 능가하여 롱테일 바이트 시퀀스를 일반화하는 데 바이트 모델링의 효과를 입증합니다.

Llama 3에서 BLT로

저자들은 BLT 모델이 사전 훈련된 토큰화 기반 모델을 사용할 수 있는 워크플로를 조사했습니다. 이는 사전 훈련된 Llama 3.1로 BLT의 글로벌 토크나이저 파라미터를 초기화하여 수행되었습니다. 결과에 따르면 Llama 3.1로 초기화된 BLT가 동일한 수의 플롭스로 훈련된 Llama 3과 기준선 BLT 모델 모두를 능가했습니다.