Published on

마이크로소프트, GPT-4o 능가하는 강력한 Phi-4 모델 공개 및 상용화

저자
  • avatar
    이름
    Ajax
    Twitter

마이크로소프트, 강력한 Phi-4 모델 공개: GPT-4o 능가 및 상용화 가능

최근 마이크로소프트 연구소는 뛰어난 성능으로 큰 주목을 받고 있는 최신 소형 파라미터 모델 Phi-4를 공개했습니다. Phi-4는 140억 개의 파라미터만으로도 여러 벤치마크 테스트에서 놀라운 결과를 보여주며, OpenAI의 GPT-4o는 물론 Qwen 2.5-14B, Llama-3.3-70B과 같은 동급 최고 수준의 오픈 소스 모델들을 능가했습니다.

더욱 구체적인 테스트에서 Phi-4는 미국 수학 경시대회(AMC)에서 91.8점이라는 뛰어난 성적을 거두며 Gemini Pro 1.5, Claude 3.5 Sonnet 등 여러 유명한 개방형 및 폐쇄형 모델들을 앞섰습니다. 전체적인 성능은 4050억 개의 파라미터를 가진 Llama-3.1과 견줄 만합니다.

이러한 결과는 커뮤니티에서 큰 반향을 일으켰습니다. 이전에는 일부 사용자들이 허깅 페이스(Hugging Face)에 불법적으로 Phi-4 가중치를 업로드하기도 했습니다. 하지만 이제 마이크로소프트는 공식적으로 Phi-4를 오픈 소스로 공개했으며, MIT 라이선스를 채택하여 상업적 용도로도 사용할 수 있게 되었습니다. 오픈 소스 주소는 phi-4에서 확인할 수 있습니다. 허깅 페이스 공식 계정도 Phi-4의 오픈 소스 공개를 축하하며 그 영향력을 인정했습니다.

Phi-4의 핵심 강점: 합성 데이터와 정교한 훈련

Phi-4가 이처럼 작은 파라미터 규모에도 불구하고 뛰어난 성적을 거둘 수 있었던 배경에는 고품질의 합성 데이터가 결정적인 역할을 했습니다. 기존의 웹 크롤링 데이터와 비교했을 때 합성 데이터는 더욱 구조화되고 단계적인 학습 자료를 제공하여 모델이 언어의 논리와 추론 과정을 보다 효율적으로 학습하도록 돕습니다.

  • 구조화된 학습: 합성 데이터는 수학 문제 풀이처럼 단계별로 제시될 수 있어 모델이 문제의 구조와 해결 방법을 더 잘 이해하도록 돕습니다.
  • 문맥 정렬: 합성 데이터는 모델의 추론 문맥과 더 잘 정렬되어 실제 응용에서 모델이 생성해야 하는 출력 형식과 더욱 유사합니다. 이를 통해 모델은 사전 훈련 단계에서부터 실제 응용 시나리오의 요구 사항에 적응할 수 있습니다. 예를 들어, 온라인 포럼의 사실 정보를 대규모 모델 상호 작용과 유사한 스타일로 바꿔 모델이 생성하는 대화에서 해당 정보가 더 자연스럽고 합리적으로 보이도록 합니다.

Phi-4의 합성 데이터 생성은 다음과 같은 원칙을 따릅니다.

  1. 다양성: 다양한 유형의 데이터를 포함하여 모델의 일반화 능력을 향상시킵니다.
  2. 미묘함과 복잡성: 데이터에 미묘한 뉘앙스와 복잡한 구조를 포함하여 모델이 더욱 깊이 있는 학습을 할 수 있도록 합니다.
  3. 정확성: 데이터의 정확성을 보장하여 모델이 잘못된 정보를 학습하지 않도록 합니다.
  4. 추론 사슬: 추론 과정을 단계별로 제시하여 모델이 논리적 사고 능력을 향상시킬 수 있도록 합니다.

이러한 원칙은 합성 데이터의 품질을 보장하며, 50가지 이상의 다양한 합성 데이터 세트를 포함합니다. 마이크로소프트는 다단계 프롬프트 프로세스, 시드 큐레이션, 재작성 및 강화, 자체 수정 등 다양한 방법을 통해 약 4,000억 개의 가중치가 없는 토큰을 생성했습니다.

합성 데이터 외에도 Phi-4는 유기 데이터에 대해서도 엄격한 선별 및 필터링을 거쳤습니다. 네트워크 콘텐츠, 라이선스 도서, 코드 저장소 등 다양한 채널에서 데이터를 수집하고, 2단계 필터링 과정을 통해 교육적 가치와 추론 깊이가 높은 시드 데이터를 추출했습니다. 이러한 시드 데이터는 합성 데이터 생성의 기반이 되었을 뿐만 아니라 직접적인 사전 훈련에도 사용되어 모델의 지식 저장소를 더욱 풍부하게 만들었습니다.

필터링 과정에서 마이크로소프트는 소형 분류기를 기반으로 한 필터링 방법을 사용하여 대규모 네트워크 데이터에서 고품질 문서를 선택하고, 다국어 데이터에 대한 특수 처리를 통해 독일어, 스페인어, 프랑스어, 포르투갈어, 이탈리아어, 힌디어, 일본어 등 다양한 언어를 처리할 수 있도록 했습니다.

Phi-4의 훈련 과정

Phi-4의 사전 훈련은 주로 합성 데이터를 사용하며, 소량의 고품질 유기 데이터를 보조적으로 활용합니다. 이러한 데이터 혼합 전략은 모델이 추론 및 문제 해결 능력을 학습하는 동시에 풍부한 지식 콘텐츠를 흡수할 수 있도록 합니다.

중간 훈련 단계에서 Phi-4는 문맥 길이를 4096에서 16384로 확장하여 모델의 긴 텍스트 처리 능력을 향상시켰습니다. 여기에는 고품질 비합성 데이터 세트에서 선별된 8K 이상의 문맥 샘플과 4K 시퀀스 요구 사항을 충족하는 새롭게 생성된 합성 데이터 세트가 포함됩니다.

후기 훈련 단계는 Phi-4 최적화의 핵심입니다. 마이크로소프트는 지도 미세 조정(SFT)과 직접 선호도 최적화(DPO) 기술을 사용했습니다.

  • SFT 단계: 다양한 분야의 고품질 데이터에서 생성된 약 80억 개의 토큰을 사용하여 사전 훈련된 모델을 미세 조정했으며, 학습률은 10-6입니다. 또한 chatml 형식으로 된 40개 언어의 다국어 데이터를 추가했습니다.
  • DPO 기술: 선호도 데이터를 생성하여 모델의 출력을 조정하고 인간의 선호도에 더 부합하도록 만듭니다. 마이크로소프트는 또한 모델 응답의 정확성에 큰 영향을 미치는 주요 토큰을 식별하고 이러한 토큰에 대한 선호도 데이터를 생성하여 추론 작업에서 모델의 성능을 향상시키는 핵심 토큰 검색(PTS) 기술을 도입했습니다.

Phi-4의 성능 평가

마이크로소프트는 Phi-4의 성능을 평가하기 위해 여러 벤치마크 테스트를 수행했습니다. MMLU, GPQA, MATH, HumanEval과 같은 학술 벤치마크 테스트에서 Phi-4는 뛰어난 성능을 보여주었습니다.

MMLU 테스트에서 Phi-4는 84.8점이라는 높은 점수를 기록했으며, GPQA 및 MATH 테스트에서는 GPT-4o를 능가하는 성적을 거두어 수학 경시대회 관련 작업에서 강력한 추론 능력을 보여주었습니다. 유사한 규모 및 더 큰 규모의 다른 모델과 비교했을 때 Phi-4는 12개 벤치마크 테스트 중 9개에서 동급 오픈 소스 모델인 Qwen-2.5-14B-Instruct보다 우수한 성능을 나타냈습니다.