- Published on
문샷 AI의 Kimi k1.5 모델, OpenAI o1 풀버전과 경쟁
인공지능 분야의 새로운 도약
인공지능(AI) 분야에서 문샷 AI(Moonshot AI)가 Kimi k1.5 멀티모달 모델을 공개하며 상당한 진전을 이루었습니다. 이 혁신적인 모델은 OpenAI의 o1 풀버전과 경쟁할 수 있는 성능 수준을 보여주며, OpenAI 외 다른 기업에서는 이전에는 달성하지 못했던 성과를 달성했습니다. 이러한 발전은 첨단 AI 역량 추구에 새로운 장을 열었으며, 글로벌 경쟁 속에서 국내 혁신의 잠재력을 보여줍니다.
Kimi k1.5 모델의 뛰어난 능력
Kimi k1.5 모델은 수학, 코딩, 멀티모달 추론 등 다양한 영역에서 포괄적인 능력을 보여줍니다. 이러한 영역에서의 성능은 o1 풀버전과 비교할 만할 뿐만 아니라, 특정 측면에서는 능가하기도 합니다. 특히, kimi-k1.5-short 변형 모델은 최첨단(SOTA) 단기 연쇄 사고(CoT) 모델로 등장하여 GPT-4o와 Claude 3.5 Sonnet을 550%나 능가하는 놀라운 성능을 보여줍니다. 이러한 상당한 발전은 모델의 뛰어난 능력과 AI 성능의 기준을 재정의할 잠재력을 강조합니다.
투명성과 협력 정신
문샷 AI의 성과는 단순한 기술적 이정표를 넘어, 경쟁적인 AI 환경에서 종종 부족한 투명성과 협력 정신을 보여주는 증거입니다. 문샷 AI는 기술 보고서를 공개함으로써 더 넓은 기술 커뮤니티가 그들의 작업을 면밀히 조사하고, 배우고, 기여하도록 초대합니다. 이러한 움직임은 인공 일반 지능(AGI)을 향한 여정이 다양한 재능과 관점의 참여를 필요로 하는 집단적 노력이라는 그들의 믿음을 강조합니다.
Kimi k1.5 모델의 SOTA 성능
Kimi k1.5 모델에 대한 포괄적인 테스트 결과, 여러 주요 영역에서 SOTA 수준의 성능을 보여줍니다. 장기 CoT 모드에서는 수학, 코딩, 멀티모달 추론에서 OpenAI o1의 공식 릴리스와 동일한 성능을 보입니다. AIME(77.5), MATH 500(96.2), Codeforces(94번째 백분위수), MathVista(74.9)와 같은 벤치마크 점수는 모델의 뛰어난 능력을 나타냅니다. 이러한 성과는 OpenAI 외 다른 기업이 o1 풀버전 성능 수준에 도달한 첫 번째 사례입니다.
또한, 단기 CoT 모드에서 Kimi k1.5 모델은 GPT-4o와 Claude 3.5 Sonnet을 크게 능가하는 글로벌 SOTA 성능을 입증했습니다. AIME(60.8), MATH500(94.6), LiveCodeBench(47.3) 점수는 단기 연쇄 사고 추론에서 모델의 뛰어난 능력을 보여줍니다. 이러한 결과는 단순한 숫자가 아니라 멀티모달 AI 모델의 기능에서 패러다임의 변화를 나타냅니다.
혁신적인 개발 접근 방식
Kimi k1.5 모델의 개발은 단순한 행운이 아니라 신중하고 혁신적인 접근 방식의 결과였습니다. 문샷 AI 팀은 사전 학습 중에 매개변수를 단순히 확장하는 것만으로는 원하는 결과를 얻을 수 없다는 것을 인식했습니다. 그들은 개선의 핵심 영역으로 강화 학습 기반 사후 학습으로 전환했습니다. 이러한 접근 방식을 통해 모델은 보상 기반 탐색을 통해 학습 데이터를 확장하여 계산 능력을 확장할 수 있습니다.
기술 보고서는 강화 학습(RL) 훈련 기술, 멀티모달 데이터 레시피, 인프라 최적화에 대한 팀의 탐구를 자세히 설명합니다. 특히, 그들의 RL 프레임워크는 몬테카를로 트리 검색 및 가치 함수와 같은 더 복잡한 기술을 피하면서 간단하고 효과적입니다. 또한, 장기 CoT 모델을 활용하여 단기 CoT 모델의 성능을 향상시키는 long2short 기술을 도입했습니다.
강화 학습 프레임워크의 핵심 요소
팀의 RL 프레임워크를 뒷받침하는 두 가지 중요한 요소는 장기 컨텍스트 확장과 개선된 정책 최적화입니다. 컨텍스트 창을 128k로 확장함으로써 모델 성능이 지속적으로 향상되는 것을 관찰했습니다. 또한, 부분 롤아웃을 사용하여 훈련 효율성을 개선하고, 이전 궤적을 재사용하여 새로운 궤적을 샘플링합니다. 팀은 또한 강력한 정책 최적화를 위해 온라인 미러 디센트 변형을 사용하여 장기 CoT를 사용한 강화 학습 공식을 도출했습니다.
long2short 기술
long2short 기술에는 모델 병합, 최단 거부 샘플링, DPO, long2short RL을 포함한 여러 방법이 포함됩니다. 모델 병합은 장기 CoT 모델과 단기 CoT 모델을 결합하여 더 나은 토큰 효율성을 달성합니다. 최단 거부 샘플링은 미세 조정을 위해 가장 짧은 올바른 응답을 선택합니다. DPO는 훈련 데이터를 위해 짧은 응답과 긴 응답 쌍을 사용합니다. Long2short RL에는 길이 페널티가 있는 별도의 훈련 단계가 포함됩니다.
미래 전망
문샷 AI는 k 시리즈 강화 학습 모델의 업그레이드를 가속화하기 위해 노력하고 있습니다. 그들은 더 많은 양식, 더 넓은 기능, 향상된 일반 기능을 도입하는 것을 목표로 합니다. 이러한 야심찬 비전은 그들을 글로벌 AI 환경에서 주요 플레이어로 자리매김하여 OpenAI와 같은 기존 플레이어의 지배력에 도전할 준비를 갖추게 합니다.
국내 혁신의 상징
Kimi k1.5 모델은 단순한 기술적 성과 그 이상입니다. AI 분야에서 국내 혁신의 잠재력을 보여주는 상징입니다. 뛰어난 성능과 훈련 세부 정보의 공개 공유를 통해 Kimi k1.5는 전 세계 AI 개발에 대한 새로운 기준을 제시합니다. 출시 기대감이 높으며, 그 영향은 심대할 것으로 예상됩니다.