- Published on
Estudio de Stanford y UC Berkeley revela la disminución en el rendimiento de ChatGPT
Fluctuaciones en el Rendimiento de ChatGPT
Un estudio reciente publicado en el Harvard Data Science Review por investigadores de la Universidad de Stanford y la Universidad de California, Berkeley, titulado 'ChatGPT Behavior Over Time', ha revelado fluctuaciones significativas en el rendimiento y comportamiento de GPT-3.5 y GPT-4 durante un período de tres meses. El estudio examinó estos modelos en siete tareas, incluyendo la resolución de problemas matemáticos, la generación de código, preguntas complejas que requieren conocimiento, el Examen de Licencia Médica de EE. UU. y preguntas que requieren conocimiento en múltiples pasos.
Variaciones en la Precisión
La investigación indicó variaciones notables en el rendimiento de ambos modelos, GPT-3.5 y GPT-4, en un lapso de tres meses. Específicamente, la precisión de GPT-4 en la identificación de números primos frente a compuestos disminuyó drásticamente del 84% en marzo al 51% en junio. Esta disminución se atribuyó, en parte, a una debilitación en su capacidad para seguir las indicaciones de 'cadena de pensamiento'. Curiosamente, GPT-3.5 mostró una mejora en esta tarea específica durante el mismo período.
Otros Cambios Notables
- Una disminución en la disposición de GPT-4 para responder preguntas delicadas y encuestas de opinión en junio.
- Una mejora en la capacidad de GPT-4 para resolver problemas de razonamiento de varios pasos, mientras que GPT-3.5 mostró una disminución en dichas tareas.
- Un aumento en los errores de formato en la generación de código para ambos modelos.
- Una disminución en la capacidad de GPT-4 para seguir las instrucciones del usuario.
Metodología de Evaluación
Los investigadores evaluaron GPT-3.5 y GPT-4 basándose en los principios de diversidad y representación. Las pruebas se llevaron a cabo en siete dominios principales:
- Problemas matemáticos
- Cuestiones sensibles/peligrosas
- Encuestas de opinión
- Preguntas complejas que requieren conocimiento
- Generación de código
- Examen de Licencia Médica de EE. UU.
- Razonamiento visual
Para entender mejor los cambios de comportamiento, el equipo desarrolló un nuevo punto de referencia centrado en el seguimiento de instrucciones independientes de la tarea. Este punto de referencia incluyó cuatro tipos de instrucciones comunes: extracción de respuestas, dejar de disculparse, evitar palabras específicas y filtrado de contenido.
Seguimiento de Instrucciones
Esta serie de pruebas fue diseñada para evaluar la capacidad de los modelos para seguir instrucciones independientemente de habilidades o conocimientos específicos. En marzo, GPT-4 fue capaz de seguir la mayoría de las instrucciones individuales bien, pero en junio comenzó a ignorarlas. Por ejemplo, la tasa de cumplimiento de las instrucciones de extracción de respuestas disminuyó del 99.5% a casi cero. La fidelidad de las instrucciones de filtrado de contenido también disminuyó del 74.0% al 19.0%.
Métricas de Rendimiento
Para capturar el rendimiento de los modelos con precisión, el equipo estableció métricas de rendimiento primarias y complementarias para cada tarea. Por ejemplo:
- La precisión se utilizó como métrica principal para los problemas de matemáticas y el USMLE.
- La proporción de código de salida ejecutable fue la métrica principal para la generación de código.
Rendimiento de ChatGPT en Cuatro Tipos de Instrucciones
Extracción de Respuestas
Esta instrucción requiere que el modelo localice e identifique con precisión la respuesta dentro de un texto o pregunta dada. GPT-4 mostró un alto cumplimiento con este tipo de instrucción en marzo, con casi el 99.5% de las consultas recibiendo respuestas con el formato correcto. Sin embargo, en junio, esta tasa se desplomó, lo que indica una disminución en la capacidad del modelo para manejar formatos de instrucción claros.
Dejar de Disculparse
Esta directiva prueba la capacidad del modelo para evitar el uso de disculpas o autoidentificarse como una IA cuando se le pide explícitamente que no lo haga. En marzo, GPT-4 generalmente siguió esta instrucción, pero en junio, la violó con frecuencia, incluso cuando se le instruyó específicamente.
Evitar Palabras Específicas
Esta instrucción verifica la flexibilidad y la atención al detalle del modelo, particularmente en el cumplimiento de restricciones específicas. La disminución de marzo a junio indica una reducción en la capacidad de GPT-4 para manejar instrucciones complejas.
Filtrado de Contenido
Esta instrucción requiere que el modelo excluya temas específicos o información sensible. En marzo, GPT-4 se adhirió en gran medida a estos requisitos de filtrado, pero en junio, su capacidad de filtrado disminuyó significativamente, con solo alrededor del 19% de los problemas sensibles manejados correctamente.
Implicaciones de la Investigación
Los investigadores señalaron que, debido a que GPT-3.5 y GPT-4 son modelos de código cerrado, OpenAI no divulga sus datos y procesos de entrenamiento. Esta falta de transparencia significa que los usuarios a menudo desconocen los cambios que se producen con cada actualización importante. Este estudio puede ayudar a los desarrolladores y usuarios a comprender el rendimiento y la dinámica del comportamiento de ChatGPT, lo cual es fundamental para garantizar la seguridad del modelo y la autenticidad del contenido. El estudio destaca los desafíos de mantener la consistencia y la fiabilidad de estos modelos, particularmente en entornos que evolucionan rápidamente.