Published on

Исследование Stanford и UC Berkeley о производительности ChatGPT: Снижение производительности со временем

Авторы
  • avatar
    Имя
    Ajax
    Twitter

Исследование производительности ChatGPT от Стэнфордского университета и UC Berkeley

Недавняя статья под названием 'Поведение ChatGPT с течением времени', опубликованная в Harvard Data Science Review исследователями из Стэнфордского университета и Калифорнийского университета в Беркли, выявила значительные колебания в производительности и поведении GPT-3.5 и GPT-4 в течение трех месяцев. В исследовании эти модели были изучены на семи задачах, включая решение математических задач, генерацию кода, многоэтапные вопросы, требующие интенсивных знаний, экзамен US Medical Licensing Exam и многоэтапные вопросы, требующие интенсивных знаний.

Колебания производительности

Исследование показало заметные изменения в производительности как GPT-3.5, так и GPT-4 в течение трех месяцев. В частности, точность GPT-4 в определении простых и составных чисел резко упала с 84% в марте до 51% в июне. Это снижение частично объясняется ослаблением ее способности следовать подсказкам 'цепочки мыслей'. Интересно, что GPT-3.5 показал улучшение в этой конкретной задаче за тот же период.

Другие заметные изменения включают:

  • Снижение готовности GPT-4 отвечать на деликатные вопросы и опросы общественного мнения в июне.
  • Улучшение способности GPT-4 решать многоэтапные задачи, в то время как GPT-3.5 показал снижение в таких задачах.
  • Увеличение количества ошибок форматирования при генерации кода для обеих моделей.
  • Снижение способности GPT-4 следовать инструкциям пользователя.

Методология оценки

Исследователи оценивали GPT-3.5 и GPT-4 на основе принципов разнообразия и репрезентативности. Тесты проводились в семи основных областях:

  • Математические задачи
  • Деликатные/опасные вопросы
  • Опросы общественного мнения
  • Многоэтапные вопросы, требующие интенсивных знаний
  • Генерация кода
  • Экзамен US Medical Licensing Exam
  • Визуальное мышление

Чтобы лучше понять изменения в поведении, команда разработала новый эталон, ориентированный на выполнение инструкций, не зависящих от конкретных навыков. Этот эталон включал четыре типа общих инструкций: извлечение ответов, прекращение извинений, избегание определенных слов и фильтрация контента.

Следование инструкциям

Эта серия тестов была разработана для оценки способности моделей следовать инструкциям независимо от конкретных навыков или знаний. В марте GPT-4 хорошо следовала большинству отдельных инструкций, но к июню она начала их игнорировать. Например, уровень соответствия инструкциям по извлечению ответов упал с 99,5% почти до нуля. Точность инструкций по фильтрации контента также снизилась с 74,0% до 19,0%.

Метрики производительности

Для точного определения производительности моделей команда установила основные и дополнительные метрики производительности для каждой задачи. Например:

  • Точность использовалась в качестве основной метрики для математических задач и USMLE.
  • Доля исполняемого выходного кода была основной метрикой для генерации кода.

Производительность ChatGPT в четырех типах инструкций

Извлечение ответа

Эта инструкция требует, чтобы модель точно находила и явно идентифицировала ответ в заданном тексте или вопросе. GPT-4 показала высокую степень соответствия этому типу инструкций в марте, при этом почти 99,5% запросов получали ответы в правильном формате. Однако к июню этот показатель резко упал, что указывает на снижение способности модели обрабатывать четкие форматы инструкций.

Прекращение извинений

Эта директива проверяет способность модели избегать извинений или самоидентификации как ИИ, когда ее явно просят этого не делать. В марте GPT-4 в целом следовала этой инструкции, но к июню она часто нарушала ее, даже когда ей давали конкретные инструкции.

Избегание определенных слов

Эта инструкция проверяет гибкость модели и внимание к деталям, особенно в отношении соблюдения конкретных ограничений. Снижение с марта по июнь указывает на уменьшение способности GPT-4 обрабатывать сложные инструкции.

Фильтрация контента

Эта инструкция требует, чтобы модель исключала определенные темы или конфиденциальную информацию. В марте GPT-4 в основном соблюдала эти требования к фильтрации, но к июню ее способность фильтрации значительно снизилась, и только около 19% деликатных вопросов были обработаны правильно.

Последствия исследования

Исследователи отметили, что, поскольку GPT-3.5 и GPT-4 являются моделями с закрытым исходным кодом, OpenAI не раскрывает свои данные и процессы обучения. Это отсутствие прозрачности означает, что пользователи часто не осведомлены об изменениях, которые происходят с каждым крупным обновлением. Это исследование может помочь разработчикам и пользователям понять динамику производительности и поведения ChatGPT, что имеет решающее значение для обеспечения безопасности и подлинности контента модели. Исследование подчеркивает проблемы поддержания согласованности и надежности этих моделей, особенно в быстро меняющихся условиях.