Filtración de Parámetros de Modelos OpenAI: Un Artículo de Microsoft Revela el Tamaño de GPT4o

En el mundo de la tecnología, la escala de parámetros de los modelos de lenguaje grandes (LLM) siempre ha sido un secreto bien guardado. Sin embargo, un reciente artículo médico publicado en colaboración por Microsoft y la Universidad de Washington, ha revelado inesperadamente información sobre los parámetros de varios modelos de OpenAI, generando un gran interés.

Parámetros Expuestos

El artículo reveló datos clave, incluyendo:

GPT-4: Aproximadamente 1.76 billones de parámetros.
GPT-4o: Alrededor de 200 mil millones de parámetros.
GPT-4o mini: Cerca de 8 mil millones de parámetros.
o1-preview: Alrededor de 300 mil millones de parámetros.
o1-mini: Cerca de 100 mil millones de parámetros.
Claude 3.5 Sonnet: Aproximadamente 175 mil millones de parámetros.

Es crucial notar que los investigadores declararon que estos parámetros son estimaciones.

Debate sobre los Parámetros de la Serie GPT-4o

Lo que sorprendió fue que la cantidad de parámetros en la serie GPT-4o es mucho menor de lo esperado, especialmente la versión mini con solo 8 mil millones de parámetros. Algunos usuarios en línea especularon que GPT-4o mini podría usar una arquitectura de modelo de mezcla de expertos (MoE), donde solo 8 mil millones de parámetros están activos, mientras que el modelo total podría tener 40 mil millones. Esta arquitectura permite que modelos más pequeños aprendan más manteniendo la velocidad de ejecución.

Comparación de Parámetros con Claude 3.5 Sonnet

Además, se señaló que la cantidad de parámetros de Claude 3.5 Sonnet es similar a la de GPT-3 davinci, lo que lleva a reflexionar sobre la relación entre el rendimiento del modelo y su tamaño.

MEDEC: Un Nuevo Estándar para la Detección de Errores Médicos

El artículo que filtró los parámetros trata en realidad sobre un benchmark llamado MEDEC1, diseñado para evaluar el desempeño de los modelos de lenguaje grandes en la detección y corrección de errores médicos. Este benchmark se enfoca en errores en notas clínicas, cubriendo cinco aspectos: diagnóstico, gestión, tratamiento, farmacoterapia y agentes causales.

Fuentes y Características de los Datos

El conjunto de datos MEDEC incluye 488 notas clínicas de tres sistemas hospitalarios estadounidenses, con un total de 3848 textos clínicos. Estos datos no habían sido expuestos a ningún modelo de lenguaje grande, asegurando la autenticidad y confiabilidad de la evaluación. Actualmente, este conjunto de datos se utiliza en la tarea compartida MEDIQA-CORR para evaluar el rendimiento de 17 sistemas participantes.

Pruebas y Resultados

El equipo de investigación utilizó el conjunto de datos MEDEC para probar varios modelos avanzados, incluyendo o1-preview, GPT-4, Claude 3.5 Sonnet y Gemini 2.0 Flash. Además, dos médicos profesionales participaron en la misma tarea de detección de errores para una comparación entre humanos y máquinas. Los resultados mostraron que, si bien los modelos de lenguaje grandes se desempeñan bien en la detección y corrección de errores médicos, aún no alcanzan el nivel de los médicos humanos. Esto indica que MEDEC es un benchmark desafiante.

El Núcleo del Artículo: Aplicaciones y Desafíos de los LLM en la Medicina

El artículo señala que una encuesta en instituciones médicas estadounidenses reveló que uno de cada cinco pacientes que lee notas clínicas informa haber encontrado errores. El 40% de estos errores se considera grave, siendo los más comunes los relacionados con el diagnóstico.

Aplicaciones y Riesgos de los LLM en Documentos Médicos

A medida que más tareas de documentación médica (como la generación de notas clínicas) son realizadas por modelos de lenguaje grandes, es crucial asegurar la precisión y seguridad de la información generada por estos modelos. Los LLM pueden producir "alucinaciones", generando información errónea o ficticia que podría tener serias implicaciones en las decisiones clínicas.

La Importancia del Benchmark MEDEC

Para abordar estos problemas y asegurar la seguridad de los LLM en la generación de contenido médico, se necesitan métodos de verificación rigurosos. La introducción del benchmark MEDEC tiene como objetivo evaluar la capacidad de los modelos para detectar y corregir errores médicos en textos clínicos.

Construcción del Conjunto de Datos MEDEC

El conjunto de datos MEDEC contiene 3848 textos clínicos de diferentes campos médicos, anotados por ocho anotadores médicos. El conjunto de datos abarca cinco tipos de errores:

Diagnóstico: El diagnóstico proporcionado es inexacto.
Gestión: La siguiente medida de gestión proporcionada es inexacta.
Farmacoterapia: La farmacoterapia recomendada es inexacta.
Tratamiento: El plan de tratamiento recomendado es inexacto.
Agente Causal: El organismo o patógeno causal indicado es inexacto.

Estos tipos de errores se seleccionaron basándose en los tipos de preguntas más comunes en los exámenes de la junta médica.

Métodos de Creación de Datos

El conjunto de datos se construyó utilizando dos métodos:

Método #1 (MS): Utilizando preguntas de exámenes de la junta médica de la colección MedQA, los anotadores con experiencia médica insertaron respuestas incorrectas en el texto del escenario.
Método #2 (UW): Utilizando la base de datos de notas clínicas reales de tres hospitales de la Universidad de Washington, un equipo de estudiantes de medicina introdujo errores manualmente en los registros.

Ambos métodos pasaron por un estricto control de calidad para garantizar la precisión y confiabilidad de los datos.

Métodos de Detección y Corrección de Errores Médicos

Para evaluar el rendimiento de los modelos en la detección y corrección de errores médicos, los investigadores dividieron el proceso en tres subtareas:

Subtarea A: Predecir el indicador de error (0: sin error; 1: con error).
Subtarea B: Extraer la oración que contiene el error.
Subtarea C: Generar contenido corregido para la oración con error.

El equipo de investigación construyó soluciones basadas en LLM, utilizando dos prompts diferentes para generar la salida requerida.

Experimentos y Resultados

Modelos de Lenguaje

Los investigadores realizaron experimentos con varios modelos de lenguaje, incluyendo Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini y o1-preview.

Análisis de los Resultados Experimentales

Los resultados experimentales mostraron que Claude 3.5 Sonnet se destacó en la detección de indicadores de error y la detección de oraciones con errores. o1-preview tuvo el mejor desempeño en la corrección de errores. Sin embargo, todos los modelos aún estaban por debajo del rendimiento de los médicos humanos en la detección y corrección de errores médicos. Los resultados también mostraron que los modelos tienen problemas de precisión y que, en muchos casos, sobrepredijeron la presencia de errores (es decir, produjeron "alucinaciones"). Además, hubo una diferencia en el ranking entre el rendimiento de clasificación y el rendimiento de generación de corrección de errores.

Análisis de Tipos de Errores

En términos de detección y corrección de diferentes tipos de errores, o1-preview tuvo un mayor recall en la detección de indicadores de error y oraciones, pero los médicos mostraron una mayor precisión.

Direcciones Futuras de la Investigación

Los investigadores indicaron que las futuras investigaciones incluirán la introducción de más ejemplos en los prompts y su optimización para mejorar aún más el rendimiento de los modelos en la detección y corrección de errores médicos.