- Published on
대규모 모델 최적화: CEO, 스케일링 법칙 한계에 도달하지 않았다고 믿다
서론
앤트로픽(Anthropic)의 CEO 다리오 아모데이는 인공지능(AI) 모델의 스케일링 법칙이 아직 한계에 도달하지 않았다고 주장합니다. 그는 데이터 제약에 대한 우려에도 불구하고, 합성 데이터와 추론 모델을 통해 이러한 제약을 극복할 수 있다고 믿습니다. 이 글에서는 아모데이의 견해와 함께 AI 모델의 발전, 학습 방법, 그리고 미래 전망에 대한 심층적인 내용을 살펴볼 것입니다.
스케일링 법칙의 지속
아모데이는 AI 모델의 스케일링 법칙이 여전히 유효하다고 강조합니다. 데이터 부족 문제가 제기되지만, 그는 합성 데이터와 추론 모델이 이를 해결할 수 있다고 봅니다. 실제로 AI 모델의 성능은 크게 향상되었으며, SWE-bench와 같은 벤치마크에서 성능이 10개월 만에 3-4%에서 50%로 증가한 것이 그 증거입니다. 이러한 추세는 앞으로도 계속될 것으로 예상됩니다.
포스트 트레이닝의 중요성
모델 학습 과정에서 포스트 트레이닝의 중요성이 점점 커지고 있습니다. 아모데이는 미래에는 포스트 트레이닝 비용이 프리 트레이닝 비용을 넘어설 것이라고 예측합니다. 인간의 직접적인 개입만으로는 모델 품질을 개선하는 데 한계가 있으며, 확장 가능한 감독 방법이 필요하다고 강조합니다. 이러한 방법은 모델이 스스로 학습하고 개선할 수 있도록 돕습니다.
모델의 다양성
모델의 특성은 벤치마크만으로는 완전히 파악하기 어렵습니다. 모델의 공손함, 직접성, 반응성, 적극성과 같은 요소도 중요하게 작용합니다. 이러한 요소들은 사용자와의 상호작용에서 중요한 역할을 하며, 모델의 실제 성능에 큰 영향을 미칩니다.
RLHF의 역할
강화 학습(Reinforcement Learning from Human Feedback, RLHF)은 모델을 더 똑똑하게 만드는 것이 아니라, 인간과 모델 간의 의사소통 격차를 해소하는 데 중요한 역할을 합니다. RLHF는 모델이 인간의 피드백을 통해 더 잘 소통하고, 인간의 의도에 더 잘 부합하도록 돕습니다.
사용자 인식과 모델 디자인
사용자들이 모델이 "멍청해졌다"고 느끼는 것은 단순히 오해가 아닐 수 있습니다. 이는 모델의 복잡성과 다양한 요소들이 성능에 영향을 미치기 때문입니다. 모델은 인간이 쉽게 이해할 수 있도록 설계된 것이 아니라, 특정 기능을 수행하고 작업을 완료하도록 설계되었습니다. 따라서 사용자는 모델을 직접 경험하면서 이해하는 것이 중요합니다.
실무 경험의 중요성
모델을 이해하는 가장 좋은 방법은 직접 상호작용하는 것입니다. 연구 논문을 읽는 것만으로는 모델을 완전히 이해하기 어렵습니다. 직접 모델을 사용해보고, 다양한 시나리오에서 어떻게 작동하는지 경험하는 것이 중요합니다.
Constitutional AI
Constitutional AI는 모델 개선을 위한 도구로, RLHF에 대한 의존도를 줄이고, 각 RLHF 데이터 포인트를 보다 효율적으로 활용할 수 있도록 돕습니다. 이 방법은 모델이 스스로 학습하고 개선할 수 있도록 일련의 원칙을 제공합니다.
배경 및 맥락
다리오 아모데이의 경험
다리오 아모데이는 약 10년 동안 AI 분야에 종사해 왔으며, 음성 인식 시스템 개발부터 시작했습니다. 그는 모델 크기, 데이터, 학습 시간을 늘리면 성능이 향상된다는 것을 발견했습니다.
스케일링 법칙의 확인
2014년부터 2017년까지의 변화는 모델 크기 확장이 복잡한 인지 작업을 수행할 수 있음을 확인하는 데 중요한 역할을 했습니다. 이는 스케일링 법칙이 실제로 작동한다는 것을 보여주는 중요한 증거였습니다.
스케일링 구성 요소
스케일링은 네트워크 크기, 학습 시간, 데이터의 선형 확장을 포함합니다. 이 세 가지 구성 요소는 모두 비례적으로 증가해야 합니다. 한 가지 요소만 증가시켜서는 원하는 성능 향상을 얻을 수 없습니다.
언어 외 스케일링
스케일링 법칙은 언어 모델뿐만 아니라 이미지, 비디오, 수학과 같은 다른 영역에도 적용됩니다. 또한 포스트 트레이닝과 새로운 재설계 모델에도 적용됩니다. 이는 스케일링 법칙이 AI 모델 전반에 걸쳐 적용되는 보편적인 원리임을 시사합니다.
스케일링 법칙 이해
스케일링 법칙은 물리학에서 "1/f 노이즈" 및 "1/x 분포"와 관련이 있습니다. 자연 과정에는 다양한 규모가 있으며, 더 큰 모델은 더 복잡한 패턴을 포착할 수 있다는 개념입니다. 모델의 크기가 커질수록 더 많은 정보를 학습하고, 더 복잡한 문제를 해결할 수 있게 됩니다.
스케일링 한계
정확한 한계는 알려지지 않았지만, 아모데이는 스케일링이 인간 수준의 지능에 도달할 수 있다고 믿습니다. 일부 영역은 인간 능력에 가까운 한계를 가질 수 있지만, 다른 영역은 개선의 여지가 훨씬 더 많을 수 있습니다. 이는 AI 모델의 발전 가능성이 여전히 크다는 것을 의미합니다.
데이터 제약
데이터 부족은 잠재적인 한계이지만, 합성 데이터와 추론 모델이 이를 극복하는 데 도움이 될 수 있습니다. 고품질의 데이터가 부족한 경우, 합성 데이터를 통해 모델을 학습시키고, 추론 모델을 통해 학습된 지식을 활용할 수 있습니다.
계산 제약
현재 계산 규모는 수십억 단위이며, 내년에는 수백억 단위에 도달할 것으로 예상되며, 2027년에는 수천억 단위에 도달할 가능성이 있습니다. 이러한 계산 능력의 증가는 AI 모델의 발전에 큰 영향을 미칠 것입니다.
모델 개발 및 특성
Claude 3 시리즈
앤트로픽은 다양한 크기와 기능을 가진 Claude 3 모델 시리즈를 출시했습니다. Opus는 가장 강력한 모델, Sonnet은 중간 성능 모델, Haiku는 빠르고 비용 효율적인 모델입니다. 이러한 다양한 모델은 사용자의 요구에 따라 선택할 수 있도록 제공됩니다.
모델 이름
모델 이름은 시에서 영감을 받았으며, Haiku는 가장 짧고 Opus는 가장 광범위합니다. 이는 모델의 특징을 시적으로 표현한 것입니다.
모델 진화
각 새로운 모델 세대는 성능과 비용 간의 균형을 개선하는 것을 목표로 합니다. 이는 AI 모델이 지속적으로 발전하고 있으며, 사용자에게 더 나은 경험을 제공하기 위해 노력하고 있다는 것을 보여줍니다.
모델 학습 과정
모델 학습 과정은 프리 트레이닝(길고 계산 집약적), 포스트 트레이닝(RLHF 및 기타 RL 방법), 안전 테스트를 포함합니다. 이러한 과정을 통해 모델의 성능과 안전성을 확보합니다.
RLHF 데이터 재사용
이전 모델의 선호도 데이터를 사용하여 새로운 모델을 학습시킬 수 있습니다. 이는 학습 데이터의 효율성을 높이고, 모델 개발 시간을 단축하는 데 도움이 됩니다.
Constitutional AI
이 방법은 모델 학습을 안내하는 일련의 원칙을 사용하며, 모델이 스스로 학습할 수 있도록 합니다. 이는 모델 학습 과정을 자동화하고, 효율성을 높이는 데 중요한 역할을 합니다.
모델 개성
모델은 공손함과 반응성과 같이 벤치마크로 포착할 수 없는 고유한 특성을 가지고 있습니다. 이러한 특성은 모델의 실제 성능에 큰 영향을 미치며, 사용자 경험을 향상시키는 데 중요한 역할을 합니다.
코딩 및 IDE
Sonnet 3.5의 코딩 능력
이 모델은 코딩에서 상당한 개선을 보여주었으며, 이전에는 몇 시간이 걸리던 작업을 엔지니어들이 더 빠르게 완료할 수 있도록 했습니다. AI 모델의 코딩 능력 향상은 개발 생산성을 크게 향상시킬 수 있습니다.
SWE-bench 성능
SWE-bench 벤치마크에서 모델의 성공률이 10개월 만에 3%에서 50%로 증가했습니다. 이는 모델의 코딩 능력이 급격하게 향상되고 있음을 보여줍니다.
AI가 프로그래밍에 미치는 영향
프로그래밍은 AI 개발과의 긴밀한 관계 때문에 빠르게 변화할 것으로 예상됩니다. AI는 프로그래밍 패러다임을 근본적으로 변화시키고 있습니다.
프로그래밍에서 AI의 역할
AI는 코드를 작성, 실행 및 분석할 수 있으며, 빠른 발전을 위한 폐쇄 루프 시스템을 만듭니다. AI는 프로그래밍 프로세스를 자동화하고, 개발 속도를 크게 향상시킬 수 있습니다.
프로그래밍의 미래
AI는 2026년 또는 2027년까지 대부분의 일상적인 코딩 작업을 처리할 것으로 예상되며, 인간은 고수준 시스템 설계 및 아키텍처에 집중할 수 있게 됩니다. 이는 프로그래머의 역할이 변화하고, 더 창의적이고 복잡한 작업에 집중할 수 있음을 의미합니다.
미래 IDE
IDE는 개선의 여지가 많지만, 앤트로픽은 자체 IDE를 개발할 계획이 없습니다. 그들은 다른 사람들이 도구를 만들 수 있도록 API를 제공하는 것을 선호합니다. 이는 앤트로픽이 특정 도구를 개발하는 것보다 AI 생태계를 확장하는 데 더 중점을 두고 있다는 것을 보여줍니다.
컴퓨터 사용 및 안전
컴퓨터 사용 기능
이 기능은 모델이 스크린샷을 분석하고 클릭하거나 키를 눌러 작업을 수행할 수 있도록 합니다. 이는 AI 모델이 실제 세계와 상호작용할 수 있는 가능성을 보여줍니다.
일반화
스크린샷을 사용하는 기능은 강력한 프리 트레이닝된 모델이 새로운 작업에 쉽게 적응할 수 있는 일반화의 좋은 예입니다. 이는 AI 모델이 다양한 환경과 작업에 적용될 수 있음을 의미합니다.
API 출시
컴퓨터 사용 기능은 안전 문제로 인해 처음에는 API로 출시됩니다. 이는 AI 모델의 안전성을 확보하기 위한 신중한 접근 방식입니다.
안전 조치
이러한 강력한 모델을 안전하게 사용하고 오용을 방지하는 것이 중요합니다. AI 모델의 강력한 기능을 악용하는 것을 막기 위해 안전 조치가 필요합니다.
책임감 있는 스케일링 정책(RSP)
이 정책은 잠재적인 위험에 대해 모델을 테스트하는 데 사용됩니다. RSP는 AI 모델의 안전성을 평가하고, 잠재적인 위험을 식별하는 데 중요한 역할을 합니다.
AI 안전 수준(ASL)
모델은 기능과 잠재적 위험에 따라 다양한 ASL 수준으로 분류됩니다. ASL은 모델의 위험 수준을 평가하고, 적절한 안전 조치를 취하는 데 도움이 됩니다.
샌드박싱
샌드박싱은 모델이 실제 세계와 상호작용하는 것을 방지하기 위해 학습 중에 사용됩니다. 이는 AI 모델이 학습 과정에서 발생할 수 있는 위험을 줄이는 데 도움이 됩니다.
메커니즘 해석 가능성
이는 특히 더 높은 ASL 수준에서 모델을 이해하고 제어하는 데 중요합니다. 메커니즘 해석 가능성은 AI 모델의 작동 방식을 이해하고, 모델을 신뢰하고 제어하는 데 필수적입니다.
RLHF 및 모델 동작
RLHF의 목적
RLHF는 모델을 더 똑똑하게 만드는 것이 아니라, 인간과 더 잘 소통하도록 돕습니다. RLHF는 모델이 인간의 피드백에 더 잘 반응하고, 인간의 의도에 더 잘 부합하도록 돕습니다.
언호블링
RLHF는 모델의 일부 제한을 제거할 수 있지만, 모든 제한을 제거할 수는 없습니다. RLHF는 모델의 성능을 개선하는 데 도움이 되지만, 모델의 모든 문제를 해결할 수는 없습니다.
포스트 트레이닝 비용
포스트 트레이닝 비용은 미래에 프리 트레이닝 비용을 초과할 것으로 예상됩니다. 이는 AI 모델의 발전 과정에서 포스트 트레이닝이 점점 더 중요해지고 있음을 보여줍니다.
확장 가능한 감독
인간만으로 모델 품질을 개선하는 방법은 확장 가능하지 않으므로, 더 확장 가능한 감독 방법이 필요합니다. 이는 AI 모델 학습 과정을 자동화하고, 효율성을 높이는 데 중요한 역할을 합니다.
모델 "멍청함"
모델이 "멍청해졌다"는 사용자의 인식은 모델의 복잡성과 프롬프트에 대한 민감성 때문일 수 있습니다. AI 모델은 사용자의 입력에 따라 다양한 방식으로 반응할 수 있으며, 사용자는 모델의 동작을 완전히 이해하기 어려울 수 있습니다.
모델 개성
모델 동작을 제어하는 것은 어려우며, 다양한 특성 간에 절충이 있습니다. AI 모델은 다양한 방식으로 반응할 수 있으며, 모델의 행동을 완전히 제어하는 것은 어렵습니다.
사용자 피드백
사용자 피드백은 모델 동작을 이해하는 데 중요하지만, 수집하고 해석하기 어렵습니다. 사용자 피드백은 AI 모델의 개선을 위한 중요한 정보이지만, 수집하고 분석하는 데 어려움이 있습니다.
경쟁 및 미래 방향
선두 경쟁
앤트로픽은 다른 회사가 따라야 할 모범을 세우고 책임 있는 AI 개발을 장려하는 것을 목표로 합니다. 앤트로픽은 AI 개발의 윤리적 측면을 중요하게 생각하며, 책임 있는 AI 개발을 위해 노력하고 있습니다.
메커니즘 해석 가능성
이는 앤트로픽의 주요 연구 분야로, 모델이 내부적으로 어떻게 작동하는지 이해하는 것을 목표로 합니다. 메커니즘 해석 가능성은 AI 모델의 작동 방식을 이해하고, 모델을 신뢰하고 제어하는 데 필수적입니다.
모델 디자인
모델은 인간이 쉽게 이해할 수 있도록 설계된 것이 아니라, 기능을 수행하고 작업을 완료하도록 설계되었습니다. AI 모델은 특정 작업을 수행하기 위해 설계되었으며, 인간이 이해하기 쉽도록 설계된 것이 아닙니다.
AI 인재
큰 팀보다는 최고의 인재 밀도가 성공에 중요합니다. AI 분야는 최고 수준의 인재가 필요하며, 이들의 역량이 AI 모델의 발전에 큰 영향을 미칩니다.
열린 마음
AI 연구자와 엔지니어에게는 열린 마음과 실험에 대한 의지가 중요합니다. AI 분야는 빠르게 발전하고 있으며, 새로운 아이디어를 받아들이고 실험하는 것이 중요합니다.
실무 경험
모델을 이해하는 데는 직접 상호작용하는 것이 중요합니다. 직접 모델을 사용해보고, 다양한 시나리오에서 어떻게 작동하는지 경험하는 것이 중요합니다.
Constitutional AI
이 방법은 일련의 원칙에 따라 모델이 스스로 학습할 수 있도록 합니다. Constitutional AI는 모델의 학습 과정을 자동화하고, 효율성을 높이는 데 도움이 됩니다.
모델 스펙
Constitutional AI와 유사한 개념으로, 모델 목표와 동작을 정의합니다. 모델 스펙은 모델의 동작을 정의하고, 모델이 사용자의 의도에 맞게 작동하도록 돕습니다.
파괴적인 오용
이는 사이버 보안 및 생물 무기와 같은 분야에서 모델을 오용하는 것과 관련된 주요 문제입니다. AI 모델의 강력한 기능을 악용하는 것을 막기 위해 안전 조치가 필요합니다.
자율성 위험
모델이 더 많은 자율성을 얻을수록, 모델이 인간의 의도와 일치하는지 확인하는 것이 중요합니다. AI 모델이 자율성을 얻게 되면, 모델이 인간의 의도에 부합하도록 제어하는 것이 매우 중요합니다.
ASL 수준
이러한 수준은 기능과 잠재적 위험에 따라 모델을 분류합니다. ASL은 모델의 위험 수준을 평가하고, 적절한 안전 조치를 취하는 데 도움이 됩니다.
AGI 타임라인
AGI(인공 일반 지능)를 달성하기 위한 타임라인은 불확실하지만, 향후 몇 년 내에 가능할 수 있습니다. AGI는 인류의 삶을 근본적으로 변화시킬 수 있는 잠재력을 가지고 있습니다.
생물학 및 의학 분야의 AGI
AGI는 연구 개발을 가속화하여 이러한 분야에 혁명을 일으킬 수 있는 잠재력을 가지고 있습니다. AGI는 생물학 및 의학 분야에서 새로운 발견을 촉진하고, 의료 기술 발전에 큰 영향을 미칠 수 있습니다.
연구 보조로서의 AI
초기 단계에서 AI는 과학자들이 실험 및 데이터 분석을 돕는 연구 보조자 역할을 할 것입니다. AI는 과학 연구의 효율성을 높이고, 새로운 발견을 촉진하는 데 도움이 될 것입니다.
AI가 생산성에 미치는 영향
AI는 생산성을 크게 향상시킬 수 있는 잠재력을 가지고 있지만, 조직 구조 및 새로운 기술의 느린 채택과 관련된 과제도 있습니다. AI 기술은 생산성을 향상시킬 수 있지만, 이를 효과적으로 활용하기 위해서는 조직 구조 및 프로세스 개선이 필요합니다.