Published on

Проучване на Станфорд и Калифорнийския университет в Бъркли разкрива спад в производителността на ChatGPT

Автори
  • avatar
    Име
    Ajax
    Twitter

Колебания в производителността на ChatGPT

Изследване, публикувано в Harvard Data Science Review, разкрива значителни колебания в работата на GPT-3.5 и GPT-4 за тримесечен период. Проучването, проведено от изследователи от Станфордския университет и Калифорнийския университет в Бъркли, обхвана седем задачи, включително:

  • Математическо решаване на проблеми
  • Генериране на код
  • Многостъпково отговаряне на въпроси, изискващи задълбочени познания
  • Изпит за медицински лиценз в САЩ
  • Визуално разсъждение

Спад в точността на GPT-4

Изследването показва значителни промени в производителността и на двата модела. Особено се откроява спадът в точността на GPT-4 при идентифициране на прости и съставни числа. Точността намалява от 84% през март до 51% през юни. Този спад се дължи отчасти на отслабване на способността му да следва инструкциите за "верига от мисли". Интересно е, че GPT-3.5 показва подобрение в тази конкретна задача през същия период.

Други забележителни промени

  • Намаляване на готовността на GPT-4 да отговаря на чувствителни въпроси и анкети през юни.
  • Подобрение в способността на GPT-4 да решава многостъпкови задачи за разсъждение, докато при GPT-3.5 се наблюдава спад в подобни задачи.
  • Увеличаване на грешките във форматирането при генериране на код и за двата модела.
  • Спад в способността на GPT-4 да следва потребителски инструкции.

Методология на оценяване

Изследователите оценяват GPT-3.5 и GPT-4 въз основа на принципите на разнообразие и представителство. Тестовете обхващат седем основни области:

  • Математически проблеми
  • Чувствителни/опасни въпроси
  • Анкети за мнения
  • Многостъпкови въпроси, изискващи задълбочени познания
  • Генериране на код
  • Изпит за медицински лиценз в САЩ
  • Визуално разсъждение

Нов еталон за следване на инструкции

За по-добро разбиране на поведенческите промени, изследователският екип разработва нов еталон, фокусиран върху следването на инструкции, независимо от задачата. Този еталон включва четири вида често срещани инструкции:

  1. Извличане на отговор
  2. Спиране на извинения
  3. Избягване на конкретни думи
  4. Филтриране на съдържание

Следване на инструкции

Тези тестове са разработени, за да оценят способността на моделите да следват инструкции независимо от конкретни умения или знания. През март GPT-4 следва повечето индивидуални инструкции добре, но до юни започва да ги пренебрегва. Например, процентът на съответствие при инструкции за извличане на отговори спада от 99,5% до почти нула. Верността на инструкциите за филтриране на съдържание също намалява от 74,0% на 19,0%.

Показатели за производителност

За точно измерване на производителността на моделите, екипът установява първични и допълнителни показатели за всяка задача. Например:

  • Точността се използва като основен показател за математически проблеми и USMLE.
  • Пропорцията на изпълним изходен код е основният показател за генериране на код.

Производителност на ChatGPT в четири типа инструкции

Извличане на отговор

Тази инструкция изисква моделът точно да локализира и изрично да идентифицира отговора в даден текст или въпрос. GPT-4 показва високо съответствие с този тип инструкции през март, но до юни процентът спада значително.

Спиране на извинения

Тази инструкция тества способността на модела да избягва използването на извинения или самоопределянето като AI. През март GPT-4 като цяло следва тази инструкция, но до юни често я нарушава.

Избягване на конкретни думи

Тази инструкция проверява гъвкавостта и вниманието към детайлите на модела. Спадът от март до юни показва намаляване на способността на GPT-4 да обработва сложни инструкции.

Филтриране на съдържание

Тази инструкция изисква моделът да изключи конкретни теми или чувствителна информация. През март GPT-4 до голяма степен се придържа към тези изисквания, но до юни способността му за филтриране намалява значително.

Последици от изследването

Изследователите отбелязват, че тъй като GPT-3.5 и GPT-4 са модели със затворен код, OpenAI не разкрива своите данни и процеси на обучение. Тази липса на прозрачност означава, че потребителите често не са наясно с промените, които настъпват при всяка голяма актуализация. Това проучване може да помогне на разработчиците и потребителите да разберат динамиката на производителността и поведението на ChatGPT, което е от решаващо значение за гарантиране на безопасността и автентичността на съдържанието на модела. Изследването подчертава предизвикателствата при поддържането на последователността и надеждността на тези модели, особено в бързо развиваща се среда.