Fuite des paramètres des modèles OpenAI : un document Microsoft révèle la taille de GPT-4o

Révélation des Paramètres des Modèles OpenAI : Une Fuite Inattendue

Dans le monde de la technologie, la taille des paramètres des grands modèles de langage (LLM) est généralement un secret bien gardé. Cependant, une récente publication scientifique, fruit d'une collaboration entre Microsoft et l'Université de Washington, a accidentellement dévoilé des informations sur les paramètres de plusieurs modèles d'OpenAI, suscitant ainsi une large attention.

Paramètres Révélés

Les informations clés divulguées dans ce document comprennent :

GPT-4: Environ 1,76 billions de paramètres
GPT-4o: Environ 200 milliards de paramètres
GPT-4o mini: Environ 80 milliards de paramètres
o1-preview: Environ 300 milliards de paramètres
o1-mini: Environ 100 milliards de paramètres
Claude 3.5 Sonnet: Environ 175 milliards de paramètres

Il est important de noter que les chercheurs ont précisé que ces valeurs sont des estimations.

Le Débat Autour des Paramètres de la Série GPT-4o

La communauté a été surprise de constater que la taille des paramètres de la série GPT-4o est bien inférieure aux attentes, notamment pour la version mini avec seulement 80 milliards de paramètres. Des spéculations suggèrent que GPT-4o mini pourrait utiliser une architecture de modèle d'experts mixtes (MoE), où seulement 80 milliards de paramètres seraient activés, alors que le modèle global pourrait en compter jusqu'à 400 milliards. Cette approche permettrait à un modèle plus petit d'acquérir plus de connaissances tout en conservant une vitesse d'exécution rapide.

Comparaison des Paramètres avec Claude 3.5 Sonnet

Il a également été souligné que le modèle Claude 3.5 Sonnet a une taille de paramètres comparable à GPT-3 davinci. Ceci soulève des questions sur la relation entre la performance d'un modèle et sa taille.

MEDEC : Un Nouveau Standard pour la Détection d'Erreurs Médicales

En réalité, ce document qui a divulgué les paramètres, traite d'un référentiel d'évaluation nommé MEDEC1. Ce référentiel a pour objectif d'évaluer la performance des grands modèles de langage dans la détection et la correction des erreurs médicales. Il se focalise sur les erreurs présentes dans les notes cliniques, couvrant cinq aspects : le diagnostic, la gestion, le traitement, la pharmacothérapie et les agents causals.

Source et Caractéristiques des Données

L'ensemble de données MEDEC comprend 488 notes cliniques provenant de trois systèmes hospitaliers américains, totalisant 3848 textes cliniques. Ces données n'ont jamais été utilisées par aucun grand modèle de langage auparavant, garantissant ainsi la fiabilité et l'authenticité de l'évaluation. Actuellement, cet ensemble de données est utilisé pour la tâche partagée MEDIQA-CORR, afin d'évaluer la performance de 17 systèmes participants.

Tests et Résultats

L'équipe de recherche a utilisé l'ensemble de données MEDEC pour tester plusieurs modèles avancés, tels que o1-preview, GPT-4, Claude 3.5 Sonnet et Gemini 2.0 Flash. De plus, deux médecins professionnels ont participé aux mêmes tâches de détection d'erreurs, permettant une comparaison entre l'humain et la machine.

Les résultats montrent que bien que les grands modèles de langage soient performants dans la détection et la correction des erreurs médicales, ils ne peuvent pas encore égaler les médecins humains. Cela démontre le caractère ambitieux du référentiel MEDEC.

Le Cœur de l'Étude : Application et Défis des LLM dans le Domaine Médical

L'étude révèle qu'aux États-Unis, une enquête a montré qu'un patient sur cinq, qui lit des notes cliniques, signale avoir trouvé des erreurs. Parmi ces erreurs, 40% sont jugées graves, les plus fréquentes étant liées au diagnostic.

Applications et Risques des LLM dans les Documents Médicaux

Étant donné que de plus en plus de tâches liées aux documents médicaux, comme la génération de notes cliniques, sont effectuées par des grands modèles de langage, il est crucial de garantir l'exactitude et la sécurité des informations produites par ces LLM. En effet, les LLM peuvent générer des hallucinations, produire des informations erronées ou inventées, ce qui pourrait avoir des conséquences graves sur les décisions cliniques.

L'Importance du Référentiel MEDEC

Afin de résoudre ces problèmes et d'assurer la sécurité des LLM dans la production de contenu médical, des méthodes de vérification strictes sont indispensables. L'introduction du référentiel MEDEC vise à évaluer la capacité des modèles à détecter et à corriger les erreurs médicales dans les textes cliniques.

Construction de l'Ensemble de Données MEDEC

L'ensemble de données MEDEC contient 3848 textes cliniques provenant de divers domaines médicaux, annotés par huit professionnels de la santé. Cet ensemble de données couvre cinq types d'erreurs :

Diagnostic : Le diagnostic fourni est inexact.
Gestion : Les prochaines mesures de gestion suggérées sont inexactes.
Pharmacothérapie : Le traitement médicamenteux recommandé est inexact.
Traitement : Le plan de traitement suggéré est inexact.
Agent causal : L'organisme pathogène ou l'agent causal indiqué est inexact.

Ces types d'erreurs ont été choisis en fonction des types de questions les plus fréquemment rencontrés lors des examens du conseil médical.

Méthodes de Création des Données

La construction de l'ensemble de données a utilisé deux approches :

Méthode #1 (MS) : Utilisation des questions d'examen du conseil médical du corpus MedQA. Des annotateurs ayant une formation médicale ont introduit des réponses erronées dans les textes de scénario.
Méthode #2 (UW) : Utilisation de la base de données de notes cliniques réelles de trois hôpitaux de l'Université de Washington. Une équipe d'étudiants en médecine a introduit manuellement des erreurs dans les enregistrements.

Les deux méthodes ont fait l'objet d'un contrôle qualité rigoureux pour garantir l'exactitude et la fiabilité des données.

Méthodes de Détection et de Correction des Erreurs Médicales

Afin d'évaluer la performance des modèles dans les tâches de détection et de correction des erreurs médicales, les chercheurs ont divisé le processus en trois sous-tâches :

Sous-tâche A : Prédire la présence d'un marqueur d'erreur (0 : pas d'erreur ; 1 : erreur).
Sous-tâche B : Extraire les phrases contenant des erreurs.
Sous-tâche C : Générer un contenu corrigé pour les phrases contenant des erreurs.

L'équipe de recherche a construit des solutions basées sur des LLM et a utilisé deux types d'invites différentes pour générer les résultats souhaités.

Expériences et Résultats

Modèles de Langage

Les chercheurs ont mené des expériences sur une variété de modèles de langage, incluant Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini et o1-preview.

Analyse des Résultats Expérimentaux

Les résultats expérimentaux ont montré que Claude 3.5 Sonnet excelle dans la détection des marqueurs d'erreurs et la détection des phrases contenant des erreurs. o1-preview s'est avéré le meilleur dans la correction des erreurs. Cependant, tous les modèles restent moins performants que les médecins humains dans la détection et la correction des erreurs médicales.

Les résultats indiquent également que les modèles ont des problèmes de précision et ont tendance à sur-prédire la présence d'erreurs (c'est-à-dire à générer des hallucinations). De plus, il existe des différences de classement entre les performances de classification et les performances de génération de correction d'erreurs.

Analyse des Types d'Erreurs

En ce qui concerne la détection et la correction des différents types d'erreurs, o1-preview a affiché un rappel plus élevé dans la détection des marqueurs et des phrases, mais les médecins ont été plus précis.

Orientations Futures

Les chercheurs ont indiqué que les prochaines étapes de recherche consisteront à introduire plus d'exemples dans les invites et à les optimiser, afin d'améliorer encore la performance des modèles dans la détection et la correction des erreurs médicales.