Published on

Stanford Studie ChatGPT Prestaties Ervaren Daling

Auteurs
  • avatar
    Naam
    Ajax
    Twitter

Stanford en UC Berkeley Onderzoek naar ChatGPT Prestaties

Een recent artikel getiteld 'ChatGPT Behavior Over Time', gepubliceerd in de Harvard Data Science Review door onderzoekers van Stanford University en de University of California, Berkeley, heeft significante schommelingen in de prestaties en het gedrag van GPT-3.5 en GPT-4 over een periode van drie maanden aan het licht gebracht. De studie onderzocht deze modellen aan de hand van zeven taken, waaronder het oplossen van wiskundige problemen, het genereren van code, het beantwoorden van kennisintensieve vragen met meerdere stappen, het US Medical Licensing Exam en kennisintensieve vragen met meerdere stappen.

Prestatieschommelingen

Het onderzoek wees op opmerkelijke variaties in de prestaties van zowel GPT-3.5 als GPT-4 binnen drie maanden. Met name de nauwkeurigheid van GPT-4 bij het identificeren van priem- versus samengestelde getallen daalde dramatisch van 84% in maart tot 51% in juni. Deze daling werd gedeeltelijk toegeschreven aan een verzwakking van het vermogen om 'chain of thought' prompts te volgen. Interessant is dat GPT-3.5 in dezelfde periode een verbetering liet zien bij deze specifieke taak.

Andere opmerkelijke veranderingen zijn onder andere:

  • Een afname van de bereidheid van GPT-4 om gevoelige vragen en opiniepeilingen in juni te beantwoorden.
  • Een verbetering in het vermogen van GPT-4 om redeneerproblemen met meerdere stappen op te lossen, terwijl GPT-3.5 een afname liet zien bij dergelijke taken.
  • Een toename van opmaakfouten bij het genereren van code voor beide modellen.
  • Een afname in het vermogen van GPT-4 om gebruikersinstructies te volgen.

Evaluatiemethodologie

De onderzoekers evalueerden GPT-3.5 en GPT-4 op basis van principes van diversiteit en representatie. Tests werden uitgevoerd in zeven belangrijke domeinen:

  • Wiskundige problemen
  • Gevoelige/gevaarlijke kwesties
  • Opiniepeilingen
  • Kennisintensieve vragen met meerdere stappen
  • Code generatie
  • US Medical Licensing Exam
  • Visueel redeneren

Om de gedragsveranderingen beter te begrijpen, ontwikkelde het team een nieuwe benchmark gericht op taakonafhankelijke instructievolging. Deze benchmark omvatte vier soorten veelvoorkomende instructies: antwoordextractie, stoppen met excuses aanbieden, specifieke woorden vermijden en contentfiltering.

Instructievolging

Deze reeks tests was ontworpen om het vermogen van de modellen te evalueren om instructies te volgen onafhankelijk van specifieke vaardigheden of kennis. In maart was GPT-4 in staat om de meeste individuele instructies goed te volgen, maar in juni begon het ze te negeren. Zo daalde de nalevingsgraad voor antwoordextractie-instructies van 99,5% naar bijna nul. De nauwkeurigheid van de contentfiltering-instructie daalde ook van 74,0% naar 19,0%.

Prestatiemetingen

Om de prestaties van de modellen nauwkeurig vast te leggen, stelde het team primaire en aanvullende prestatiemetingen vast voor elke taak. Bijvoorbeeld:

  • Nauwkeurigheid werd gebruikt als de primaire meting voor wiskundige problemen en de USMLE.
  • Het aandeel uitvoerbare outputcode was de primaire meting voor codegeneratie.

ChatGPT's Prestaties in Vier Instructietypen

Antwoordextractie

Deze instructie vereist dat het model het antwoord nauwkeurig lokaliseert en expliciet identificeert binnen een gegeven tekst of vraag. GPT-4 vertoonde een hoge naleving van dit type instructie in maart, waarbij bijna 99,5% van de queries correct geformatteerde antwoorden ontvingen. In juni was dit percentage echter gedaald, wat wijst op een afname van het vermogen van het model om duidelijke instructieformaten te verwerken.

Stoppen met Excuses Aanbieden

Deze richtlijn test het vermogen van het model om het gebruik van excuses of zelfidentificatie als een AI te vermijden wanneer expliciet wordt gevraagd dit niet te doen. In maart volgde GPT-4 deze instructie over het algemeen, maar in juni overtrad het deze vaak, zelfs wanneer specifiek geïnstrueerd.

Specifieke Woorden Vermijden

Deze instructie controleert de flexibiliteit en aandacht voor detail van het model, met name bij het naleven van specifieke beperkingen. De afname van maart tot juni wijst op een vermindering van het vermogen van GPT-4 om complexe instructies te verwerken.

Contentfiltering

Deze instructie vereist dat het model specifieke onderwerpen of gevoelige informatie uitsluit. In maart hield GPT-4 zich grotendeels aan deze filtervereisten, maar in juni was het filtervermogen aanzienlijk afgenomen, waarbij slechts ongeveer 19% van de gevoelige kwesties correct werd afgehandeld.

Gevolgen van het Onderzoek

De onderzoekers merkten op dat, omdat GPT-3.5 en GPT-4 closed-source modellen zijn, OpenAI de trainingsgegevens en processen niet openbaar maakt. Dit gebrek aan transparantie betekent dat gebruikers zich vaak niet bewust zijn van de veranderingen die optreden bij elke grote update. Deze studie kan ontwikkelaars en gebruikers helpen de prestaties en het gedrag van ChatGPT te begrijpen, wat cruciaal is voor het waarborgen van de veiligheid en inhoudauthenticiteit van het model. De studie benadrukt de uitdagingen bij het handhaven van de consistentie en betrouwbaarheid van deze modellen, met name in snel evoluerende omgevingen.