OpenAI 모델 파라미터 유출: 마이크로소프트 논문에서 GPT-4o 크기 공개

대형 언어 모델(LLM) 파라미터 유출 사건

최근 마이크로소프트와 워싱턴 대학교 연구팀의 협력으로 발표된 의학 논문에서 OpenAI 모델들의 파라미터 정보가 유출되어 큰 화제가 되었습니다. 그동안 비밀에 부쳐져 있던 대형 언어 모델(LLM)의 파라미터 규모가 공개되면서, 인공지능 기술 발전에 대한 관심이 더욱 고조되고 있습니다. 이 논문은 의료 오류 감지 및 수정에 대한 새로운 평가 기준인 MEDEC를 소개하는 과정에서, 여러 모델의 파라미터 정보를 실수로 공개했습니다.

유출된 파라미터 정보

논문에 따르면, 다음과 같은 모델들의 파라미터 정보가 공개되었습니다.

GPT-4: 약 1.76조 파라미터
GPT-4o: 약 2000억 파라미터
GPT-4o mini: 약 80억 파라미터
o1-preview: 약 3000억 파라미터
o1-mini: 약 1000억 파라미터
Claude 3.5 Sonnet: 약 1750억 파라미터

연구진은 이러한 수치들이 추정치라고 명시했지만, 이는 업계에서 매우 민감한 정보로 받아들여지고 있습니다. 특히 GPT-4o 시리즈의 파라미터 크기는 예상보다 훨씬 작아 많은 이들을 놀라게 했습니다.

GPT-4o 시리즈의 파라미터 논란

GPT-4o 시리즈의 파라미터 크기는 특히 주목을 받았습니다. GPT-4o mini 모델의 경우, 단 80억 개의 파라미터만 가지고 있다는 사실은 많은 사람들을 놀라게 했습니다. 일부 전문가들은 GPT-4o mini가 혼합 전문가 모델(MoE) 아키텍처를 채택했을 가능성을 제기했습니다. MoE 아키텍처는 실제 활성화되는 파라미터는 80억 개이지만, 전체 모델 파라미터는 400억 개에 이를 수 있습니다. 이러한 구조는 소규모 모델이 더 많은 지식을 학습하면서도 빠른 실행 속도를 유지할 수 있게 해줍니다.

Claude 3.5 Sonnet 파라미터 비교

Claude 3.5 Sonnet의 파라미터 크기는 약 1750억 개로, GPT-3 davinci와 비슷한 수준입니다. 이는 모델의 성능과 규모 사이의 관계에 대한 추가적인 질문을 던졌습니다. 파라미터 크기가 반드시 모델 성능을 결정짓는 것은 아니라는 점을 시사하며, 모델 아키텍처 및 학습 방법이 성능에 큰 영향을 미칠 수 있음을 보여줍니다.

MEDEC 기준: 의료 오류 감지의 새로운 표준

이번에 파라미터 정보가 유출된 논문은 의료 오류 감지 및 수정에 대한 새로운 평가 기준인 MEDEC를 소개하는 논문입니다. MEDEC는 임상 노트에서 발생하는 오류를 중심으로, 진단, 관리, 치료, 약물 치료, 그리고 병인 인자 등 다섯 가지 측면을 평가합니다. MEDEC 데이터셋은 미국 내 3개 병원 시스템에서 수집한 488개의 임상 노트를 포함하고 있으며, 총 3848개의 임상 텍스트로 구성되어 있습니다. 이 데이터는 이전에 어떤 대형 언어 모델도 접한 적이 없어 평가의 신뢰성을 높입니다. 현재 MEDEC 데이터셋은 MEDIQA-CORR 공유 과제에서 17개 참여 시스템의 성능을 평가하는 데 사용되고 있습니다.

실험 방법 및 결과

연구팀은 MEDEC 데이터셋을 사용하여 o1-preview, GPT-4, Claude 3.5 Sonnet, Gemini 2.0 Flash 등 다양한 최첨단 모델을 테스트했습니다. 또한, 두 명의 전문 의사를 초빙하여 동일한 오류 감지 작업을 수행하고, 인공지능 모델과 인간 의사의 성능을 비교했습니다. 결과적으로, 대형 언어 모델은 의료 오류 감지 및 수정에 있어 뛰어난 성능을 보였지만, 여전히 인간 의사보다는 낮은 정확도를 보였습니다. 이는 MEDEC가 매우 도전적인 평가 기준임을 입증합니다.

논문의 핵심 내용: 의료 분야 LLM의 응용과 과제

논문은 미국의 의료 기관 조사 결과, 임상 노트를 읽는 환자 다섯 명 중 한 명이 오류를 발견했다고 보고했습니다. 이러한 오류 중 40%는 심각한 것으로 판단되었으며, 가장 흔한 오류는 진단과 관련된 것이었습니다. 임상 노트 생성과 같은 의료 문서 작업에서 대형 언어 모델의 사용이 증가함에 따라, 모델이 출력하는 정보의 정확성과 안전성을 확보하는 것이 매우 중요해졌습니다. LLM은 환각을 일으켜 잘못된 정보나 허구의 내용을 출력할 수 있으며, 이는 임상 결정에 심각한 영향을 미칠 수 있습니다.

MEDEC 기준의 중요성

이러한 문제를 해결하고, 의료 콘텐츠 생성에서 LLM의 안전성을 보장하기 위해 엄격한 검증 방법이 필요합니다. MEDEC 기준은 임상 텍스트에서 의료 오류를 감지하고 수정하는 모델의 능력을 평가하기 위해 도입되었습니다. 이는 의료 분야에서 LLM의 신뢰성을 높이는 데 중요한 역할을 합니다.

MEDEC 데이터셋의 구성

MEDEC 데이터셋은 다양한 의학 분야에서 수집된 3848개의 임상 텍스트로 구성되어 있으며, 8명의 의학 전문가가 데이터에 대한 주석 작업을 완료했습니다. 이 데이터셋은 다음과 같은 5가지 유형의 오류를 포함합니다.

진단(Diagnosis): 부정확한 진단 제공
관리(Management): 부정확한 다음 단계 관리 조치 제공
약물 치료(Pharmacotherapy): 부정확한 약물 치료 권장
치료(Treatment): 부정확한 치료 계획 권장
병인 인자(Causal Organism): 부정확한 병원체 또는 병원균 지적

이러한 오류 유형은 의학위원회 시험에서 가장 흔하게 나타나는 문제 유형을 기반으로 선택되었습니다.

데이터 생성 방법

데이터셋은 두 가지 방법으로 생성되었습니다.

방법 #1 (MS): MedQA 컬렉션의 의학위원회 시험 문제를 활용하여 의학적 배경을 가진 주석자가 시나리오 텍스트에 오류 응답을 주입했습니다.
방법 #2 (UW): 워싱턴 대학교 세 개 병원 시스템의 실제 임상 노트 데이터베이스를 사용하여 의대생 팀이 기록에 오류를 수동으로 도입했습니다.

두 가지 방법 모두 엄격한 품질 관리를 거쳐 데이터의 정확성과 신뢰성을 확보했습니다.

의료 오류 감지 및 수정 방법

연구진은 모델의 의료 오류 감지 및 수정 능력을 평가하기 위해 이 과정을 세 가지 하위 작업으로 나누었습니다.

하위 작업 A: 오류 표시 예측 (0: 오류 없음, 1: 오류 있음)
하위 작업 B: 오류가 포함된 문장 추출
하위 작업 C: 오류가 포함된 문장에 대한 수정 내용 생성

연구팀은 LLM을 기반으로 솔루션을 구축하고, 필요한 출력을 생성하기 위해 두 가지 다른 프롬프트를 사용했습니다.

실험 결과 분석

연구진은 Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini, o1-preview 등 다양한 언어 모델을 대상으로 실험을 진행했습니다. 실험 결과, Claude 3.5 Sonnet이 오류 표시 감지 및 오류 문장 감지에서 뛰어난 성능을 보였으며, o1-preview가 오류 수정에서 가장 좋은 성능을 나타냈습니다. 하지만 모든 모델은 여전히 인간 의사에 비해 의료 오류 감지 및 수정 능력이 부족했습니다. 실험 결과는 모델이 정확도에 문제가 있으며, 많은 경우 오류의 존재를 과도하게 예측하는 경향이 있음을 보여주었습니다. 또한, 분류 성능과 오류 수정 생성 성능 사이에 순위 차이가 존재했습니다.

오류 유형 분석

다양한 오류 유형의 감지 및 수정 측면에서 o1-preview는 오류 표시 및 문장 감지에서 높은 재현율을 보였지만, 의사는 정확도 측면에서 더 나은 성능을 보였습니다. 이는 모델이 특정 유형의 오류를 감지하는 데 강점을 보이지만, 전반적인 정확도는 여전히 개선이 필요함을 시사합니다.

향후 연구 방향

연구진은 향후 연구 방향으로 프롬프트에 더 많은 예시를 도입하고 최적화하여 의료 오류 감지 및 수정 분야에서 모델의 성능을 더욱 향상시킬 계획이라고 밝혔습니다. 이는 의료 분야에서 LLM의 신뢰성을 높이는 데 중요한 단계가 될 것입니다.