Publié le

Étude de Stanford et Berkeley sur la performance de ChatGPT: Une baisse observée

Auteurs
  • avatar
    Nom
    Ajax
    Twitter

Fluctuations de Performance des Modèles GPT

Une étude récente publiée dans le Harvard Data Science Review, menée par des chercheurs de Stanford University et de l'University of California, Berkeley, a mis en lumière des variations notables dans la performance de GPT-3.5 et GPT-4 sur une période de trois mois. L'étude a examiné ces modèles à travers sept tâches différentes, allant de la résolution de problèmes mathématiques à la génération de code, en passant par des questions complexes et l'examen médical américain (USMLE).

Détérioration de la Précision de GPT-4

Les résultats ont montré que la précision de GPT-4 dans l'identification des nombres premiers a chuté de 84% en mars à 51% en juin. Cette baisse est en partie due à une capacité réduite à suivre les invites de type 'chaîne de pensée'. Paradoxalement, GPT-3.5 a montré une amélioration dans cette tâche spécifique durant la même période.

Autres Changements Notables

  • Une réticence accrue de GPT-4 à répondre aux questions sensibles et aux sondages d'opinion en juin.
  • Une amélioration de la capacité de GPT-4 à résoudre des problèmes de raisonnement multi-étapes, tandis que GPT-3.5 a montré une baisse dans ce domaine.
  • Une augmentation des erreurs de formatage dans la génération de code pour les deux modèles.
  • Une diminution de la capacité de GPT-4 à suivre les instructions des utilisateurs.

Méthodologie d'Évaluation

Les chercheurs ont évalué GPT-3.5 et GPT-4 en utilisant des principes de diversité et de représentativité. Les tests ont été menés à travers sept domaines principaux:

  • Problèmes mathématiques
  • Questions sensibles/dangereuses
  • Sondages d'opinion
  • Questions complexes nécessitant des connaissances
  • Génération de code
  • Examen médical américain (USMLE)
  • Raisonnement visuel

Pour mieux comprendre ces changements de comportement, l'équipe a développé un nouveau point de référence axé sur le suivi des instructions indépendant des tâches. Ce point de référence comprenait quatre types d'instructions communes: l'extraction de réponses, l'arrêt des excuses, l'évitement de mots spécifiques et le filtrage de contenu.

Suivi des Instructions

La série de tests a été conçue pour évaluer la capacité des modèles à suivre les instructions, indépendamment de compétences ou de connaissances spécifiques. En mars, GPT-4 était capable de suivre la plupart des instructions individuelles, mais en juin, il a commencé à les ignorer. Par exemple, le taux de conformité pour les instructions d'extraction de réponses est passé de 99,5% à presque zéro. La fidélité aux instructions de filtrage de contenu a également diminué, passant de 74,0% à 19,0%.

Métriques de Performance

Pour capturer la performance des modèles avec précision, l'équipe a établi des métriques de performance principales et secondaires pour chaque tâche. Par exemple:

  • La précision était la métrique principale pour les problèmes mathématiques et l'USMLE.
  • La proportion de code de sortie exécutable était la métrique principale pour la génération de code.

Performance de ChatGPT dans Quatre Types d'Instructions

Extraction de Réponses

Cette instruction exigeait du modèle qu'il localise et identifie explicitement la réponse dans un texte ou une question donnée. GPT-4 a démontré une conformité élevée avec ce type d'instruction en mars, avec près de 99,5% des requêtes recevant des réponses correctement formatées. Cependant, en juin, ce taux a chuté, indiquant une baisse de la capacité du modèle à gérer les formats d'instructions clairs.

Arrêt des Excuses

Cette directive teste la capacité du modèle à éviter d'utiliser des excuses ou à s'identifier comme une IA lorsqu'il lui est explicitement demandé de ne pas le faire. En mars, GPT-4 a généralement suivi cette instruction, mais en juin, il l'a fréquemment violée, même lorsqu'il avait reçu des instructions spécifiques.

Éviter des Mots Spécifiques

Cette instruction vérifie la flexibilité du modèle et son attention aux détails, en particulier pour le respect de contraintes spécifiques. La baisse observée entre mars et juin indique une réduction de la capacité de GPT-4 à gérer des instructions complexes.

Filtrage de Contenu

Cette instruction demande au modèle d'exclure des sujets spécifiques ou des informations sensibles. En mars, GPT-4 a largement respecté ces exigences de filtrage, mais en juin, sa capacité de filtrage a considérablement diminué, avec seulement environ 19% des problèmes sensibles traités correctement.

Implications de la Recherche

Les chercheurs ont noté qu'en raison du caractère fermé des modèles GPT-3.5 et GPT-4, OpenAI ne divulgue pas ses données et processus d'entraînement. Ce manque de transparence signifie que les utilisateurs ne sont souvent pas conscients des changements qui se produisent à chaque mise à jour majeure. Cette étude peut aider les développeurs et les utilisateurs à comprendre la dynamique de performance et de comportement de ChatGPT, ce qui est essentiel pour assurer la sécurité et l'authenticité du contenu du modèle. L'étude souligne les défis liés au maintien de la cohérence et de la fiabilité de ces modèles, en particulier dans des environnements en évolution rapide.