Published on

Estudo de Stanford e UC Berkeley Revela Declínio no Desempenho do ChatGPT

Autores
  • avatar
    Nome
    Ajax
    Twitter

Estudo da Universidade de Stanford e UC Berkeley sobre o Desempenho do ChatGPT

Um artigo recente intitulado 'ChatGPT Behavior Over Time', publicado na Harvard Data Science Review por pesquisadores da Universidade de Stanford e da Universidade da Califórnia, Berkeley, revelou flutuações significativas no desempenho e comportamento do GPT-3.5 e GPT-4 durante um período de três meses. O estudo examinou esses modelos em sete tarefas, incluindo resolução de problemas matemáticos, geração de código, perguntas que exigem conhecimento intensivo em várias etapas, o Exame de Licenciamento Médico dos EUA e perguntas que exigem conhecimento intensivo em várias etapas.

Flutuações de Desempenho

A pesquisa indicou variações notáveis no desempenho de ambos, GPT-3.5 e GPT-4, dentro de três meses. Especificamente, a precisão do GPT-4 na identificação de números primos versus compostos caiu drasticamente de 84% em março para 51% em junho. Esse declínio foi parcialmente atribuído a um enfraquecimento em sua capacidade de seguir prompts de 'cadeia de pensamento'. Curiosamente, o GPT-3.5 mostrou uma melhoria nessa tarefa específica durante o mesmo período.

Outras mudanças notáveis incluem:

  • Uma diminuição na disposição do GPT-4 em responder a perguntas sensíveis e pesquisas de opinião em junho.
  • Uma melhoria na capacidade do GPT-4 de resolver problemas de raciocínio de várias etapas, enquanto o GPT-3.5 mostrou um declínio nessas tarefas.
  • Um aumento nos erros de formatação na geração de código para ambos os modelos.
  • Um declínio na capacidade do GPT-4 de seguir as instruções do usuário.

Metodologia de Avaliação

Os pesquisadores avaliaram o GPT-3.5 e o GPT-4 com base nos princípios de diversidade e representação. Os testes foram realizados em sete domínios principais:

  • Problemas matemáticos
  • Questões sensíveis/perigosas
  • Pesquisas de opinião
  • Perguntas que exigem conhecimento intensivo em várias etapas
  • Geração de código
  • Exame de Licenciamento Médico dos EUA
  • Raciocínio visual

Para entender melhor as mudanças comportamentais, a equipe desenvolveu um novo benchmark focado no seguimento de instruções independentes de tarefas. Este benchmark incluiu quatro tipos de instruções comuns: extração de respostas, parar de pedir desculpas, evitar palavras específicas e filtragem de conteúdo.

Seguimento de Instruções

Esta série de testes foi projetada para avaliar a capacidade dos modelos de seguir instruções independentemente de habilidades ou conhecimentos específicos. Em março, o GPT-4 conseguiu seguir a maioria das instruções individuais bem, mas em junho começou a desconsiderá-las. Por exemplo, a taxa de conformidade para instruções de extração de respostas caiu de 99,5% para quase zero. A fidelidade da instrução de filtragem de conteúdo também diminuiu de 74,0% para 19,0%.

Métricas de Desempenho

Para capturar o desempenho dos modelos com precisão, a equipe estabeleceu métricas de desempenho primárias e suplementares para cada tarefa. Por exemplo:

  • A precisão foi usada como métrica primária para problemas de matemática e o USMLE.
  • A proporção de código de saída executável foi a métrica primária para geração de código.

Desempenho do ChatGPT em Quatro Tipos de Instrução

Extração de Respostas

Esta instrução exige que o modelo localize e identifique explicitamente a resposta dentro de um texto ou pergunta. O GPT-4 mostrou alta conformidade com este tipo de instrução em março, com quase 99,5% das consultas recebendo respostas formatadas corretamente. No entanto, em junho, essa taxa despencou, indicando um declínio na capacidade do modelo de lidar com formatos de instruções claros.

Parar de Pedir Desculpas

Esta diretiva testa a capacidade do modelo de evitar o uso de desculpas ou autoidentificar-se como uma IA quando explicitamente solicitado a não o fazer. Em março, o GPT-4 geralmente seguia esta instrução, mas em junho, ele frequentemente a violava, mesmo quando especificamente instruído.

Evitar Palavras Específicas

Esta instrução verifica a flexibilidade do modelo e a atenção aos detalhes, particularmente em aderir a restrições específicas. O declínio de março a junho indica uma redução na capacidade do GPT-4 de lidar com instruções complexas.

Filtragem de Conteúdo

Esta instrução exige que o modelo exclua tópicos específicos ou informações sensíveis. Em março, o GPT-4 aderiu em grande parte a esses requisitos de filtragem, mas em junho, sua capacidade de filtragem diminuiu significativamente, com apenas cerca de 19% das questões sensíveis tratadas corretamente.

Implicações da Pesquisa

Os pesquisadores observaram que, como o GPT-3.5 e o GPT-4 são modelos de código fechado, a OpenAI não divulga seus dados e processos de treinamento. Essa falta de transparência significa que os usuários geralmente desconhecem as mudanças que ocorrem a cada grande atualização. Este estudo pode ajudar desenvolvedores e usuários a entender a dinâmica de desempenho e comportamento do ChatGPT, o que é fundamental para garantir a segurança do modelo e a autenticidade do conteúdo. O estudo destaca os desafios de manter a consistência e confiabilidade desses modelos, particularmente em ambientes em rápida evolução.