Published on

대규모 모델의 밀도 법칙: 스케일링 법칙을 넘어선 새로운 관점

저자
  • avatar
    이름
    Ajax
    Twitter

대규모 모델 "밀도 법칙"의 핵심 아이디어

칭화대학교 류즈위안 교수가 이끄는 연구팀은 대규모 모델에 대한 새로운 관점인 "밀도 법칙"을 제시했습니다. 이 법칙에 따르면, 모델의 성능 밀도는 약 100일마다 두 배씩 증가합니다. 이는 기존의 스케일링 법칙과는 다른 시각을 제공하며, 모델의 규모보다는 매개변수의 효율성에 초점을 맞추고 있습니다. 마치 반도체 산업의 무어의 법칙처럼, AI 모델의 발전 속도를 새로운 각도에서 조명하는 것입니다.

배경 및 동기

기존의 스케일링 법칙은 모델의 크기(매개변수)와 학습 데이터의 증가에 따라 모델의 성능이 향상된다고 설명합니다. 그러나 새로운 "밀도 법칙"은 매개변수의 효과적인 사용과 시간 경과에 따른 모델 효율성의 급격한 향상을 강조하며, 다른 관점을 제시합니다. 연구팀은 "성능 밀도"라는 개념을 도입하여 실제 매개변수에 대한 유효 매개변수의 비율을 측정합니다. 이는 단순한 모델 크기 증가가 아닌, 효율성 향상에 주목하는 것입니다.

주요 개념

  • 성능 밀도 (Capability Density): 모델의 실제 매개변수 수에 대한 "유효 매개변수"의 비율로 정의됩니다. 즉, 동일한 성능을 달성하는 데 필요한 최소한의 매개변수 수를 의미합니다.

  • 유효 매개변수 (Effective Parameters): 목표 모델과 동일한 성능을 달성하는 데 필요한 참조 모델의 최소 매개변수 수입니다. 이는 모델의 실제 크기보다 더 중요한 지표로 사용됩니다.

  • 참조 모델 (Reference Model): 다른 모델의 유효 매개변수 수를 결정하기 위한 벤치마크로 사용되는 모델입니다. 성능 비교의 기준으로 사용됩니다.

  • 손실 추정 (Loss Estimation): 일련의 참조 모델을 사용하여 모델 매개변수와 손실 사이의 관계를 맞추는 과정입니다. 이를 통해 모델의 효율성을 평가할 수 있습니다.

  • 성능 추정 (Performance Estimation): 모델에서 새로운 기능의 출현을 고려하여 손실과 성능 간의 완전한 매핑을 설정하는 과정입니다. 이를 통해 모델의 잠재력을 파악할 수 있습니다.

밀도 법칙

대규모 언어 모델(LLM)의 최대 성능 밀도는 시간이 지남에 따라 기하급수적으로 증가합니다. 이 성장은 ln(ρmax) = At + B라는 공식으로 표현할 수 있습니다. 여기서 ρmax는 시간 t에서의 최대 성능 밀도입니다. 이 법칙은 최첨단 모델의 성능을 약 3.3개월(약 100일)마다 절반의 매개변수로 달성할 수 있음을 시사합니다. 이는 모델 발전의 놀라운 속도를 보여줍니다.

밀도 법칙의 시사점

  • 추론 비용 감소: 모델 추론 비용은 시간이 지남에 따라 기하급수적으로 감소하고 있습니다. 예를 들어, 백만 토큰당 비용은 GPT-3.5에서 Gemini-1.5-Flash로 크게 감소했습니다. 이는 모델의 효율성이 향상됨에 따라 비용 부담이 줄어든다는 것을 의미합니다.

  • 성능 밀도 성장 가속화: ChatGPT 출시 이후 성능 밀도 증가율이 가속화되었습니다. 이는 AI 모델 발전의 속도가 더욱 빨라지고 있음을 보여줍니다.

  • 무어의 법칙과 밀도 법칙의 수렴: 증가하는 칩 밀도(무어의 법칙)와 모델 성능 밀도(밀도 법칙)의 교차점은 강력한 온디바이스 AI의 가능성을 나타냅니다. 이는 AI 기술이 더욱 보편화될 수 있음을 시사합니다.

  • 모델 압축의 한계: 모델 압축 기술만으로는 성능 밀도를 향상시키지 못할 수 있습니다. 실제로 대부분의 압축 모델은 원래 모델보다 밀도가 낮습니다. 이는 모델 압축만으로는 효율성을 개선하는 데 한계가 있음을 시사합니다.

  • 모델 수명 단축: 성능 밀도의 급격한 증가는 고성능 모델의 유효 수명이 짧아지고 있음을 의미하며, 이는 수익성 창출 기회가 짧아진다는 것을 의미합니다.

더 넓은 맥락

밀도 법칙은 AI 시대의 핵심 엔진인 전기, 컴퓨팅 성능, 지능이 모두 급격한 밀도 성장을 경험하고 있는 더 큰 추세의 일부입니다.

  • 배터리 에너지 밀도는 지난 20년 동안 4배 증가했습니다.
  • 칩 트랜지스터 밀도는 18개월마다 두 배로 증가합니다 (무어의 법칙).
  • AI 모델 성능 밀도는 100일마다 두 배로 증가합니다.

이러한 추세는 에너지 및 컴퓨팅 자원에 대한 수요를 줄이는 보다 효율적인 AI로의 전환을 시사합니다. 또한, 엣지 컴퓨팅과 로컬 AI 모델의 부상을 예고하며 AI가 보편화되는 미래를 예측할 수 있습니다. 이는 AI 기술이 우리 생활에 더욱 깊숙이 들어올 것이라는 것을 의미합니다.

추가 사항

  • 연구팀은 29개의 널리 사용되는 오픈 소스 대규모 모델을 사용하여 성능 밀도 추세를 분석했습니다.
  • 이 연구는 모델 압축 알고리즘에만 의존하는 것이 모델 성능 밀도를 향상시키는 데 충분하지 않을 수 있음을 강조합니다.
  • 연구 논문은 다음 링크에서 확인할 수 있습니다: Densing Law of LLMs

이 연구는 대규모 모델 개발과 관련된 기존의 스케일링 법칙을 넘어 새로운 관점을 제시하며, AI 기술 발전의 미래 방향을 제시합니다. AI 기술 발전의 새로운 패러다임을 이해하는 데 중요한 단초를 제공합니다.