미스트랄 코드스트랄 256K 컨텍스트 윈도우로 리더보드 정상 차지

미스트랄 코드스트랄, 코파일럿 아레나 정상 등극

유럽의 OpenAI라고 불리는 미스트랄은 새로운 코드 모델인 코드스트랄의 업데이트 버전을 출시했습니다. 이 새로운 버전은 코파일럿 아레나에서 DeepSeek V2.5 및 Claude 3.5와 공동 1위를 차지하며 빠르게 정상에 올랐습니다. 특히, 컨텍스트 윈도우가 8배 확장되어 256k에 달하는 놀라운 성능을 보여줍니다.

향상된 성능과 속도

새로운 코드스트랄(2501)은 이전 버전에 비해 2배 빠른 생성 속도를 제공합니다. 이는 더욱 효율적인 아키텍처와 토크나이저 덕분입니다. 또한, 다양한 벤치마크에서 최첨단(SOTA) 결과를 달성했으며, 코드 완성(FIM) 기능도 크게 향상되었습니다. 미스트랄의 파트너인 Continue.dev에 따르면, 2501 버전은 FIM 분야에서 중요한 진전을 의미합니다.

코파일럿 아레나 승리

코드 모델 경쟁 플랫폼인 코파일럿 아레나에서 코드스트랄 2501은 Deepseek V2.5 및 Claude 3.5 Sonnet과 함께 공동 1위를 차지했습니다. 이는 이전 코드스트랄 버전(2405)보다 12포인트(1.2%) 향상된 결과입니다. Llama 3.1, Gemini 1.5 Pro, GPT-4o와 같은 모델은 순위가 낮지만, o1이 포함되면 순위가 바뀔 가능성이 있습니다.

코파일럿 아레나 상세 정보

코파일럿 아레나는 카네기 멜론 대학교와 UC 버클리 연구진, 그리고 LMArena의 협력으로 지난 11월에 시작되었습니다. LLM 아레나와 유사하게, 사용자가 문제를 제시하면 시스템이 무작위로 두 모델을 선택하여 익명으로 결과를 제공합니다. 사용자는 더 나은 결과를 선택합니다. LLM 아레나의 코드 특정 버전인 코파일럿 아레나는 VSCode에서 여러 모델을 동시에 비교할 수 있는 오픈 소스 프로그래밍 도구 역할도 합니다. 현재 12개의 코드 모델이 17,000회 이상의 경쟁에 참여했습니다.

다양한 벤치마크에서 SOTA 결과 달성

미스트랄은 코드스트랄 2501이 HumanEval과 같은 전통적인 테스트에서 여러 지표에서 SOTA 결과를 달성했다고 밝혔습니다. 비교 대상으로 선정된 모델은 일반적으로 FIM 작업에서 강력하다고 평가되는 100B 미만의 매개변수를 가진 모델이었습니다. 또한, 컨텍스트 윈도우는 2405 버전(22B 매개변수)의 32k에서 새 버전의 256k로 증가했습니다. Python 및 SQL 데이터베이스 관련 테스트에서 코드스트랄 2501은 여러 지표에서 지속적으로 1위 또는 2위를 차지했습니다.

언어 성능

코드스트랄은 80개 이상의 언어를 지원하는 것으로 알려져 있으며, 평균 HumanEval 점수 71.4%를 달성하여 2위 모델보다 거의 6%p 높은 점수를 받았습니다. 또한 Python, C+, JS와 같은 일반적인 언어에서 SOTA 상태를 달성했으며, C# 언어 점수도 50%를 초과했습니다. 흥미롭게도, 코드스트랄 2501의 Java 성능은 이전 버전에 비해 감소했습니다.

FIM 성능

미스트랄 팀은 단일 라인 정확도 매치를 기준으로 측정한 코드스트랄 2501의 FIM 성능 데이터도 공개했습니다. 평균 점수와 Python, Java, JS 개별 점수는 모두 이전 버전에 비해 향상되었으며 OpenAI FIM API(3.5 Turbo)와 같은 다른 모델을 능가합니다. DeepSeek은 가까운 경쟁자입니다. FIM pass@1 결과도 유사한 추세를 보여줍니다.

사용 가능성

코드스트랄 2501은 미스트랄의 파트너인 Continue를 통해 VSCode 또는 Jetbrains IDE에서 사용할 수 있습니다. 사용자는 API를 통해 직접 배포할 수도 있으며, 가격은 백만 입력/출력 토큰당 0.3/0.9 USD 또는 EUR입니다.