Published on

Badanie Stanforda i UC Berkeley nad wydajnością ChatGPT: Spadek w czasie

Autorzy
  • avatar
    Imię
    Ajax
    Twitter

Wahania Wydajności ChatGPT w Czasie

Ostatni artykuł zatytułowany 'Zachowanie ChatGPT w Czasie', opublikowany w Harvard Data Science Review przez badaczy ze Stanford University i University of California, Berkeley, ujawnił znaczące wahania w wydajności i zachowaniu modeli GPT-3.5 i GPT-4 w okresie trzech miesięcy. Badanie analizowało te modele w siedmiu zadaniach, w tym rozwiązywaniu problemów matematycznych, generowaniu kodu, odpowiadaniu na pytania wymagające intensywnej wiedzy wieloetapowej, egzaminie licencyjnym US Medical Licensing Exam oraz odpowiadaniu na pytania wymagające intensywnej wiedzy wieloetapowej.

Spadki i Wzrosty Wydajności

Badania wykazały znaczne różnice w wydajności zarówno GPT-3.5, jak i GPT-4 w ciągu trzech miesięcy. Na przykład, dokładność GPT-4 w identyfikacji liczb pierwszych i złożonych spadła drastycznie z 84% w marcu do 51% w czerwcu. Ten spadek został częściowo przypisany osłabieniu jego zdolności do podążania za podpowiedziami 'łańcucha myśli'. Co ciekawe, GPT-3.5 wykazał poprawę w tym konkretnym zadaniu w tym samym okresie.

Inne znaczące zmiany obejmują:

  • Spadek chęci GPT-4 do odpowiadania na pytania drażliwe i ankiety opinii w czerwcu.
  • Poprawę zdolności GPT-4 do rozwiązywania problemów wymagających wieloetapowego rozumowania, podczas gdy GPT-3.5 wykazał spadek w takich zadaniach.
  • Wzrost błędów formatowania w generowaniu kodu dla obu modeli.
  • Spadek zdolności GPT-4 do przestrzegania instrukcji użytkownika.

Metodologia Oceny

Badacze oceniali GPT-3.5 i GPT-4 na podstawie zasad różnorodności i reprezentacji. Testy przeprowadzono w siedmiu głównych domenach:

  • Problemy matematyczne
  • Kwestie wrażliwe/niebezpieczne
  • Ankiety opinii
  • Pytania wymagające intensywnej wiedzy wieloetapowej
  • Generowanie kodu
  • Egzamin licencyjny US Medical Licensing Exam
  • Rozumowanie wizualne

Aby lepiej zrozumieć zmiany behawioralne, zespół opracował nowy punkt odniesienia skoncentrowany na niezależnym od zadania przestrzeganiu instrukcji. Ten punkt odniesienia obejmował cztery rodzaje typowych instrukcji: wydobywanie odpowiedzi, zaprzestanie przepraszania, unikanie określonych słów i filtrowanie treści.

Przestrzeganie Instrukcji

Ta seria testów została zaprojektowana w celu oceny zdolności modeli do przestrzegania instrukcji niezależnie od konkretnych umiejętności lub wiedzy. W marcu GPT-4 był w stanie dobrze przestrzegać większości pojedynczych instrukcji, ale w czerwcu zaczął je ignorować. Na przykład, wskaźnik zgodności z instrukcjami wydobywania odpowiedzi spadł z 99,5% do prawie zera. Wierność instrukcji filtrowania treści również spadła z 74,0% do 19,0%.

Metryki Wydajności

Aby dokładnie uchwycić wydajność modeli, zespół ustalił podstawowe i uzupełniające metryki wydajności dla każdego zadania. Na przykład:

  • Dokładność była używana jako podstawowa metryka dla problemów matematycznych i USMLE.
  • Odsetek wykonywalnego kodu wyjściowego był podstawową metryką dla generowania kodu.

Wydajność ChatGPT w Czterech Rodzajach Instrukcji

Wydobywanie Odpowiedzi

Ta instrukcja wymaga od modelu dokładnego zlokalizowania i wyraźnego wskazania odpowiedzi w danym tekście lub pytaniu. GPT-4 wykazał wysoką zgodność z tego rodzaju instrukcją w marcu, gdzie prawie 99,5% zapytań otrzymało poprawnie sformatowane odpowiedzi. Jednak w czerwcu ten wskaźnik gwałtownie spadł, wskazując na spadek zdolności modelu do obsługi jasnych formatów instrukcji.

Zaprzestanie Przepraszania

Ta dyrektywa testuje zdolność modelu do unikania przepraszania lub identyfikowania się jako sztuczna inteligencja, gdy wyraźnie o to poproszono. W marcu GPT-4 na ogół przestrzegał tej instrukcji, ale w czerwcu często ją naruszał, nawet gdy był to wyraźnie nakazane.

Unikanie Określonych Słów

Ta instrukcja sprawdza elastyczność i dbałość o szczegóły modelu, szczególnie w przestrzeganiu określonych ograniczeń. Spadek od marca do czerwca wskazuje na zmniejszenie zdolności GPT-4 do obsługi złożonych instrukcji.

Filtrowanie Treści

Ta instrukcja wymaga od modelu wykluczenia określonych tematów lub wrażliwych informacji. W marcu GPT-4 w dużej mierze przestrzegał tych wymagań filtrowania, ale w czerwcu jego zdolność filtrowania znacznie spadła, a tylko około 19% wrażliwych kwestii zostało prawidłowo obsłużonych.

Implikacje Badań

Badacze zauważyli, że ponieważ GPT-3.5 i GPT-4 są modelami o zamkniętym kodzie źródłowym, OpenAI nie ujawnia swoich danych treningowych i procesów. Ten brak przejrzystości oznacza, że użytkownicy często nie są świadomi zmian, które zachodzą z każdą dużą aktualizacją. To badanie może pomóc programistom i użytkownikom zrozumieć dynamikę wydajności i zachowania ChatGPT, co ma kluczowe znaczenie dla zapewnienia bezpieczeństwa i autentyczności treści modelu. Badanie podkreśla wyzwania związane z utrzymaniem spójności i niezawodności tych modeli, szczególnie w szybko zmieniających się środowiskach.