Published on

Разкриване на параметрите на моделите на OpenAI: Документ на Microsoft разкрива размера на GPT4o

Автори
  • avatar
    Име
    Ajax
    Twitter

Изтичане на параметри на OpenAI моделите

В технологичния свят, мащабите на параметрите на големите езикови модели (LLM) винаги са били строго пазена тайна. Въпреки това, скорошна медицинска статия, публикувана от екип на Microsoft и Вашингтонския университет, неочаквано разкри информация за параметрите на няколко модела на OpenAI, което предизвика широк интерес.

Разкрити параметри

Ключовата информация, разкрита в тази статия, включва:

  • GPT-4: Приблизително 1.76 трилиона параметри
  • GPT-4o: Приблизително 200 милиарда параметри
  • GPT-4o mini: Приблизително 8 милиарда параметри
  • o1-preview: Приблизително 300 милиарда параметри
  • o1-mini: Приблизително 100 милиарда параметри
  • Claude 3.5 Sonnet: Приблизително 175 милиарда параметри

Важно е да се отбележи, че изследователите заявиха, че тези параметри са приблизителни.

Горещи дебати около параметрите на серията GPT-4o

Изненадващо, параметрите на серията GPT-4o са далеч по-ниски от очакваното, особено мини версията само с 8 милиарда параметри. Някои потребители на мрежата предполагат, че GPT-4o mini може да използва архитектура на модел със смес от експерти (MoE), с действително активирани 8 милиарда параметри, но общите параметри на модела може да достигнат 400 милиарда. Тази архитектура позволява на по-малки модели да научат повече знания, като същевременно поддържат скорост на работа.

Сравнение на параметрите на Claude 3.5 Sonnet

Освен това, коментатори отбелязват, че параметрите на Claude 3.5 Sonnet са сравними с тези на GPT-3 davinci, което поражда по-нататъшни размисли за връзката между производителността и мащаба на различните модели.

MEDEC бенчмарк: Нов стандарт за откриване на медицински грешки

Статията, която разкри параметрите, всъщност е за оценка на името MEDEC1, която има за цел да оцени представянето на големите езикови модели при откриване и коригиране на медицински грешки. Този бенчмарк се фокусира върху грешки в клиничните бележки, обхващайки пет аспекта: диагностика, управление, лечение, фармакотерапия и причинител.

Източник и характеристики на данните

MEDEC наборът от данни съдържа 488 клинични бележки от три американски болнични системи, общо 3848 клинични текста. Тези данни не са били достъпни за нито един голям езиков модел преди, осигурявайки автентичност и надеждност на оценката. В момента този набор от данни се използва в общата задача MEDIQA-CORR за оценка на представянето на 17 участващи системи.

Тестове и резултати

Изследователският екип използва MEDEC набора от данни, за да тества различни усъвършенствани модели, включително o1-preview, GPT-4, Claude 3.5 Sonnet и Gemini 2.0 Flash. В същото време те поканиха двама професионални лекари да участват в същите задачи за откриване на грешки, за да направят сравнение между човек и машина.

Резултатите показват, че въпреки че големите езикови модели се представят добре при откриването и коригирането на медицински грешки, те все още изостават от лекарите. Това показва, че MEDEC е предизвикателен бенчмарк за оценка.

Основно съдържание на статията: Приложения и предизвикателства на LLM в медицинската област

Статията посочва, че проучвания на американски медицински институции показват, че един от всеки петима пациенти, които четат клинични бележки, съобщава, че е открил грешка. 40% от тези грешки се считат за сериозни, като най-често срещаните са грешки, свързани с диагнозата.

Приложения и рискове на LLM в медицинската документация

Тъй като все повече медицински задачи за документиране (като генериране на клинични бележки) се изпълняват от големи езикови модели, е от решаващо значение да се гарантира точността и безопасността на информацията, изведена от LLM. LLM могат да халюцинират, да извеждат грешна или измислена информация, което може да има сериозни последици за клиничните решения.

Значението на MEDEC бенчмарка

За да се справят с тези проблеми и да се гарантира безопасността на LLM при генерирането на медицинско съдържание, са необходими строги методи за проверка. Въвеждането на MEDEC бенчмарка има за цел да оцени способността на моделите да откриват и коригират медицински грешки в клинични текстове.

Изграждане на набора от данни MEDEC

Наборът от данни MEDEC съдържа 3848 клинични текста от различни медицински области, анотирани от 8 медицински анотатори. Наборът от данни обхваща пет вида грешки:

  • Диагноза (Diagnosis): Предоставената диагноза е неточна.
  • Управление (Management): Предоставените следващи стъпки за управление са неточни.
  • Фармакотерапия (Pharmacotherapy): Препоръчаното медикаментозно лечение е неточно.
  • Лечение (Treatment): Препоръчаният план за лечение е неточен.
  • Причинител (Causal Organism): Посоченият причинител или патоген е неточен.

Тези типове грешки са избрани въз основа на най-често срещаните типове въпроси в медицинските изпити.

Метод за създаване на данни

Наборът от данни е изграден с помощта на два метода:

  1. Метод #1 (MS): Използване на въпроси от медицински изпити от набора MedQA, анотатори с медицински опит вкарват грешни отговори в текстовете на сценария.
  2. Метод #2 (UW): Използване на реална база данни с клинични бележки от трите болнични системи на Вашингтонския университет, медицински студенти ръчно въвеждат грешки в записите.

И двата метода са подложени на строг контрол на качеството, за да се гарантира точността и надеждността на данните.

Методи за откриване и коригиране на медицински грешки

За да оценят представянето на моделите при задачи за откриване и коригиране на медицински грешки, изследователите разделят процеса на три подзадачи:

  • Подзадача A: Прогнозиране на флаг за грешка (0: няма грешка; 1: има грешка).
  • Подзадача B: Извличане на изречението, съдържащо грешката.
  • Подзадача C: Генериране на коригирано съдържание за изречението, съдържащо грешката.

Изследователският екип изгради решения, базирани на LLM, и използва два различни подкани за генериране на желаните резултати.

Експерименти и резултати

Езикови модели

Изследователите проведоха експерименти с различни езикови модели, включително Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini и o1-preview.

Анализ на резултатите от експериментите

Резултатите от експериментите показват, че Claude 3.5 Sonnet се представя добре при откриването на флагове за грешки и извличането на изречения, съдържащи грешки. o1-preview се представя най-добре при коригиране на грешки. Въпреки това, всички модели все още не са толкова добри, колкото лекарите, при откриването и коригирането на медицински грешки.

Резултатите също така показват, че моделите имат проблеми с точността и в много случаи свръхпрогнозират наличието на грешки (т.е. халюцинират). Освен това има разлика в класирането между класификационната производителност и производителността при генериране на корекция на грешки.

Анализ на видовете грешки

По отношение на откриването и коригирането на различни видове грешки, o1-preview има по-висока степен на извикване при откриването на флагове за грешки и извличането на изречения, но лекарите се представят по-добре по отношение на точността.

Насоки за бъдещи изследвания

Изследователите казват, че следващите изследователски насоки включват въвеждане на повече примери в подканите и тяхната оптимизация, за да се подобри допълнително представянето на моделите при откриване и коригиране на медицински грешки.