- Published on
Badanie Stanforda i UC Berkeley nad wydajnością ChatGPT: Spadek w czasie
Wahania Wydajności ChatGPT w Czasie
Ostatni artykuł zatytułowany 'Zachowanie ChatGPT w Czasie', opublikowany w Harvard Data Science Review przez badaczy ze Stanford University i University of California, Berkeley, ujawnił znaczące wahania w wydajności i zachowaniu modeli GPT-3.5 i GPT-4 w okresie trzech miesięcy. Badanie analizowało te modele w siedmiu zadaniach, w tym rozwiązywaniu problemów matematycznych, generowaniu kodu, odpowiadaniu na pytania wymagające intensywnej wiedzy wieloetapowej, egzaminie licencyjnym US Medical Licensing Exam oraz odpowiadaniu na pytania wymagające intensywnej wiedzy wieloetapowej.
Spadki i Wzrosty Wydajności
Badania wykazały znaczne różnice w wydajności zarówno GPT-3.5, jak i GPT-4 w ciągu trzech miesięcy. Na przykład, dokładność GPT-4 w identyfikacji liczb pierwszych i złożonych spadła drastycznie z 84% w marcu do 51% w czerwcu. Ten spadek został częściowo przypisany osłabieniu jego zdolności do podążania za podpowiedziami 'łańcucha myśli'. Co ciekawe, GPT-3.5 wykazał poprawę w tym konkretnym zadaniu w tym samym okresie.
Inne znaczące zmiany obejmują:
- Spadek chęci GPT-4 do odpowiadania na pytania drażliwe i ankiety opinii w czerwcu.
- Poprawę zdolności GPT-4 do rozwiązywania problemów wymagających wieloetapowego rozumowania, podczas gdy GPT-3.5 wykazał spadek w takich zadaniach.
- Wzrost błędów formatowania w generowaniu kodu dla obu modeli.
- Spadek zdolności GPT-4 do przestrzegania instrukcji użytkownika.
Metodologia Oceny
Badacze oceniali GPT-3.5 i GPT-4 na podstawie zasad różnorodności i reprezentacji. Testy przeprowadzono w siedmiu głównych domenach:
- Problemy matematyczne
- Kwestie wrażliwe/niebezpieczne
- Ankiety opinii
- Pytania wymagające intensywnej wiedzy wieloetapowej
- Generowanie kodu
- Egzamin licencyjny US Medical Licensing Exam
- Rozumowanie wizualne
Aby lepiej zrozumieć zmiany behawioralne, zespół opracował nowy punkt odniesienia skoncentrowany na niezależnym od zadania przestrzeganiu instrukcji. Ten punkt odniesienia obejmował cztery rodzaje typowych instrukcji: wydobywanie odpowiedzi, zaprzestanie przepraszania, unikanie określonych słów i filtrowanie treści.
Przestrzeganie Instrukcji
Ta seria testów została zaprojektowana w celu oceny zdolności modeli do przestrzegania instrukcji niezależnie od konkretnych umiejętności lub wiedzy. W marcu GPT-4 był w stanie dobrze przestrzegać większości pojedynczych instrukcji, ale w czerwcu zaczął je ignorować. Na przykład, wskaźnik zgodności z instrukcjami wydobywania odpowiedzi spadł z 99,5% do prawie zera. Wierność instrukcji filtrowania treści również spadła z 74,0% do 19,0%.
Metryki Wydajności
Aby dokładnie uchwycić wydajność modeli, zespół ustalił podstawowe i uzupełniające metryki wydajności dla każdego zadania. Na przykład:
- Dokładność była używana jako podstawowa metryka dla problemów matematycznych i USMLE.
- Odsetek wykonywalnego kodu wyjściowego był podstawową metryką dla generowania kodu.
Wydajność ChatGPT w Czterech Rodzajach Instrukcji
Wydobywanie Odpowiedzi
Ta instrukcja wymaga od modelu dokładnego zlokalizowania i wyraźnego wskazania odpowiedzi w danym tekście lub pytaniu. GPT-4 wykazał wysoką zgodność z tego rodzaju instrukcją w marcu, gdzie prawie 99,5% zapytań otrzymało poprawnie sformatowane odpowiedzi. Jednak w czerwcu ten wskaźnik gwałtownie spadł, wskazując na spadek zdolności modelu do obsługi jasnych formatów instrukcji.
Zaprzestanie Przepraszania
Ta dyrektywa testuje zdolność modelu do unikania przepraszania lub identyfikowania się jako sztuczna inteligencja, gdy wyraźnie o to poproszono. W marcu GPT-4 na ogół przestrzegał tej instrukcji, ale w czerwcu często ją naruszał, nawet gdy był to wyraźnie nakazane.
Unikanie Określonych Słów
Ta instrukcja sprawdza elastyczność i dbałość o szczegóły modelu, szczególnie w przestrzeganiu określonych ograniczeń. Spadek od marca do czerwca wskazuje na zmniejszenie zdolności GPT-4 do obsługi złożonych instrukcji.
Filtrowanie Treści
Ta instrukcja wymaga od modelu wykluczenia określonych tematów lub wrażliwych informacji. W marcu GPT-4 w dużej mierze przestrzegał tych wymagań filtrowania, ale w czerwcu jego zdolność filtrowania znacznie spadła, a tylko około 19% wrażliwych kwestii zostało prawidłowo obsłużonych.
Implikacje Badań
Badacze zauważyli, że ponieważ GPT-3.5 i GPT-4 są modelami o zamkniętym kodzie źródłowym, OpenAI nie ujawnia swoich danych treningowych i procesów. Ten brak przejrzystości oznacza, że użytkownicy często nie są świadomi zmian, które zachodzą z każdą dużą aktualizacją. To badanie może pomóc programistom i użytkownikom zrozumieć dynamikę wydajności i zachowania ChatGPT, co ma kluczowe znaczenie dla zapewnienia bezpieczeństwa i autentyczności treści modelu. Badanie podkreśla wyzwania związane z utrzymaniem spójności i niezawodności tych modeli, szczególnie w szybko zmieniających się środowiskach.