Published on

Утечка параметров моделей OpenAI: статья Microsoft раскрывает размер GPT4o

Авторы
  • avatar
    Имя
    Ajax
    Twitter

Утечка параметров моделей OpenAI: статья Microsoft раскрывает размер GPT4o

В технологическом мире параметры крупных языковых моделей (LLM) всегда держались в строжайшем секрете. Однако, недавняя медицинская статья, опубликованная командой Microsoft и Вашингтонского университета, неожиданно раскрыла информацию о параметрах нескольких моделей OpenAI, вызвав широкий интерес.

Раскрытие параметров

Ключевые данные, раскрытые в статье, включают:

  • GPT-4: около 1,76 триллиона параметров
  • GPT-4o: около 200 миллиардов параметров
  • GPT-4o mini: около 8 миллиардов параметров
  • o1-preview: около 300 миллиардов параметров
  • o1-mini: около 100 миллиардов параметров
  • Claude 3.5 Sonnet: около 175 миллиардов параметров

Следует отметить, что исследователи подчеркнули, что эти параметры являются оценочными значениями.

Споры вокруг параметров серии GPT-4o

Удивительно, что количество параметров серии GPT-4o оказалось значительно ниже ожидаемого, особенно у mini-версии, которая имеет всего 8 миллиардов параметров. Пользователи сети предположили, что GPT-4o mini может использовать архитектуру Mixture of Experts (MoE), где фактически активируется 8 миллиардов параметров, но общее количество параметров модели может достигать 400 миллиардов. Такая архитектура позволяет небольшим моделям усваивать больше знаний, сохраняя при этом высокую скорость работы.

Сравнение параметров Claude 3.5 Sonnet

Кроме того, комментаторы отметили, что количество параметров Claude 3.5 Sonnet сопоставимо с GPT-3 davinci, что заставляет задуматься о соотношении между производительностью и размером различных моделей.

MEDEC: новый стандарт для выявления медицинских ошибок

Статья, в которой произошла утечка параметров, на самом деле посвящена оценочному бенчмарку под названием MEDEC1, разработанному для оценки производительности крупных языковых моделей в задачах выявления и исправления медицинских ошибок. Этот бенчмарк фокусируется на ошибках в клинических заметках и охватывает пять областей: диагностика, управление, лечение, фармакотерапия и причинные факторы.

Источники и особенности данных

Набор данных MEDEC включает 488 клинических заметок из трех больничных систем США, что в общей сложности составляет 3848 клинических текстов. Эти данные ранее не использовались ни одной крупной языковой моделью, что обеспечивает достоверность и надежность оценки. В настоящее время этот набор данных используется в общей задаче MEDIQA-CORR для оценки производительности 17 участвующих систем.

Тестирование и результаты

Исследовательская группа протестировала несколько передовых моделей, включая o1-preview, GPT-4, Claude 3.5 Sonnet и Gemini 2.0 Flash, используя набор данных MEDEC. Кроме того, они пригласили двух профессиональных врачей для участия в тех же задачах обнаружения ошибок, чтобы провести сравнение между человеком и машиной.

Результаты показали, что, хотя крупные языковые модели демонстрируют отличные результаты в обнаружении и исправлении медицинских ошибок, они все еще отстают от врачей-людей. Это свидетельствует о том, что MEDEC является сложным оценочным бенчмарком.

Основной посыл статьи: применение и проблемы LLM в медицине

В статье отмечается, что, согласно исследованиям медицинских учреждений США, каждый пятый пациент, читающий клинические заметки, сообщает об обнаружении ошибок. 40% этих ошибок считаются серьезными, и чаще всего встречаются ошибки, связанные с диагностикой.

Применение и риски LLM в медицинских документах

Поскольку все больше задач по работе с медицинскими документами, таких как создание клинических заметок, выполняется крупными языковыми моделями, крайне важно обеспечить точность и безопасность информации, предоставляемой LLM. LLM могут генерировать "галлюцинации", выдавая ошибочный или вымышленный контент, что может серьезно повлиять на клинические решения.

Значение бенчмарка MEDEC

Для решения этих проблем и обеспечения безопасности LLM при создании медицинского контента необходимы строгие методы проверки. Внедрение бенчмарка MEDEC направлено на оценку способности моделей обнаруживать и исправлять медицинские ошибки в клинических текстах.

Создание набора данных MEDEC

Набор данных MEDEC содержит 3848 клинических текстов из различных медицинских областей, которые были размечены 8 медицинскими аннотаторами. Набор данных охватывает пять типов ошибок:

  • Диагноз (Diagnosis): предоставленный диагноз неточен.
  • Управление (Management): предоставленные дальнейшие меры управления неточны.
  • Фармакотерапия (Pharmacotherapy): рекомендуемое лекарственное лечение неточно.
  • Лечение (Treatment): рекомендуемый план лечения неточен.
  • Причинный фактор (Causal Organism): указанный патогенный организм или возбудитель неточен.

Выбор этих типов ошибок основан на типах вопросов, наиболее часто встречающихся на медицинских экзаменах.

Методы создания данных

Набор данных был создан с использованием двух методов:

  1. Метод №1 (MS): с использованием вопросов экзаменационной комиссии по медицине из коллекции MedQA, где аннотаторы с медицинским образованием вносили ошибочные ответы в текст сценария.
  2. Метод №2 (UW): с использованием реальной базы данных клинических заметок из трех больничных систем Вашингтонского университета, где команда медицинских студентов вручную вносила ошибки в записи.

Оба метода прошли строгий контроль качества, чтобы обеспечить точность и надежность данных.

Методы выявления и исправления медицинских ошибок

Для оценки производительности моделей в задачах выявления и исправления медицинских ошибок, исследователи разделили процесс на три подзадачи:

  • Подзадача A: предсказание признака ошибки (0: нет ошибки; 1: есть ошибка).
  • Подзадача B: извлечение предложения, содержащего ошибку.
  • Подзадача C: генерация исправленного содержимого для предложения, содержащего ошибку.

Исследовательская группа разработала решения на основе LLM и использовала два разных типа подсказок для создания необходимого вывода.

Эксперименты и результаты

Языковые модели

Исследователи провели эксперименты с различными языковыми моделями, включая Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini и o1-preview.

Анализ результатов эксперимента

Результаты экспериментов показали, что Claude 3.5 Sonnet отлично справляется с обнаружением признаков ошибки и извлечением предложений с ошибками. o1-preview показал наилучшие результаты в исправлении ошибок. Однако все модели все еще уступают врачам-людям в обнаружении и исправлении медицинских ошибок.

Результаты также показали, что у моделей есть проблемы с точностью, и во многих случаях они чрезмерно предсказывают наличие ошибок (то есть, генерируют "галлюцинации"). Кроме того, существует разница в рейтинге между производительностью классификации и производительностью исправления ошибок.

Анализ типов ошибок

Что касается обнаружения и исправления различных типов ошибок, o1-preview имеет более высокий показатель полноты при обнаружении признаков ошибки и извлечении предложений, но врачи показывают более высокую точность.

Дальнейшие направления исследований

Исследователи заявили, что следующим шагом в исследованиях будет введение большего количества примеров и оптимизация подсказок для дальнейшего повышения производительности моделей в обнаружении и исправлении медицинских ошибок.