Parâmetros dos Modelos OpenAI Vazados: Artigo da Microsoft Revela o Tamanho do GPT4o

Revelação dos Parâmetros dos Modelos OpenAI

Na comunidade tecnológica, a escala de parâmetros dos grandes modelos de linguagem (LLM) tem sido mantida em sigilo. No entanto, um recente artigo de pesquisa médica, fruto de uma colaboração entre a Microsoft e a Universidade de Washington, inadvertidamente revelou informações sobre os parâmetros de vários modelos da OpenAI, captando a atenção de muitos.

Parâmetros Expostos

O artigo revelou informações cruciais, incluindo:

GPT-4: Aproximadamente 1,76 triliões de parâmetros
GPT-4o: Cerca de 200 mil milhões de parâmetros
GPT-4o mini: Aproximadamente 8 mil milhões de parâmetros
o1-preview: Cerca de 300 mil milhões de parâmetros
o1-mini: Aproximadamente 100 mil milhões de parâmetros
Claude 3.5 Sonnet: Cerca de 175 mil milhões de parâmetros

É importante notar que os investigadores declararam que estes parâmetros são estimativas.

Discussão em Torno dos Parâmetros da Série GPT-4o

É surpreendente que a série GPT-4o tenha um número de parâmetros muito inferior ao esperado, especialmente a versão mini, com apenas 8 mil milhões. Alguns especularam que o GPT-4o mini pode usar uma arquitetura de modelo de mistura de especialistas (MoE), com 8 mil milhões de parâmetros realmente ativados, mas um total de 40 mil milhões de parâmetros no modelo completo. Esta arquitetura pode permitir que modelos menores aprendam mais conhecimento, mantendo a velocidade de operação.

Comparação dos Parâmetros do Claude 3.5 Sonnet

Além disso, alguns comentários apontaram que o número de parâmetros do Claude 3.5 Sonnet é comparável ao do GPT-3 davinci, o que levanta questões sobre a relação entre o desempenho e a escala de diferentes modelos. Esta comparação estimula uma reflexão sobre a eficácia dos modelos, independentemente do seu tamanho.

MEDEC: Um Novo Padrão para a Detecção de Erros Médicos

O artigo que vazou os parâmetros é, na verdade, sobre um padrão de avaliação chamado MEDEC1, projetado para avaliar o desempenho de grandes modelos de linguagem na deteção e correção de erros médicos. Este padrão centra-se em erros em notas clínicas e abrange cinco áreas: diagnóstico, gestão, tratamento, farmacoterapia e agentes causais.

Origem e Características dos Dados

O conjunto de dados MEDEC inclui 488 notas clínicas de três sistemas hospitalares dos EUA, totalizando 3848 textos clínicos. Estes dados nunca foram expostos a nenhum grande modelo de linguagem, garantindo a autenticidade e a fiabilidade da avaliação. Atualmente, este conjunto de dados está a ser utilizado na tarefa partilhada MEDIQA-CORR para avaliar o desempenho de 17 sistemas participantes.

Testes e Resultados

A equipa de investigação utilizou o conjunto de dados MEDEC para testar vários modelos avançados, incluindo o o1-preview, GPT-4, Claude 3.5 Sonnet e Gemini 2.0 Flash. Além disso, dois médicos foram convidados a participar nas mesmas tarefas de deteção de erros para uma comparação homem-máquina.

Os resultados mostraram que, embora os grandes modelos de linguagem sejam excelentes na deteção e correção de erros médicos, ainda existem lacunas quando comparados com os médicos humanos. Isso demonstra que o MEDEC é um padrão de avaliação desafiador.

O Núcleo do Artigo: Aplicações e Desafios dos LLMs na Área Médica

O artigo aponta que uma pesquisa realizada em instituições médicas dos EUA revela que um em cada cinco pacientes que leem notas clínicas reporta ter encontrado erros. Desses erros, 40% são considerados graves, sendo os mais comuns os erros relacionados com o diagnóstico.

Aplicações e Riscos dos LLMs em Documentos Médicos

Com cada vez mais tarefas de documentação médica (como a geração de notas clínicas) a serem realizadas por grandes modelos de linguagem, é fundamental garantir a precisão e a segurança das informações produzidas pelos LLMs. Os LLMs podem gerar alucinações, produzindo conteúdo incorreto ou fictício, o que pode ter um impacto significativo nas decisões clínicas.

A Importância do Padrão MEDEC

Para resolver estes problemas e garantir a segurança dos LLMs na geração de conteúdo médico, são necessários métodos de verificação rigorosos. A introdução do padrão MEDEC tem como objetivo avaliar a capacidade dos modelos de detetar e corrigir erros médicos em textos clínicos.

Construção do Conjunto de Dados MEDEC

O conjunto de dados MEDEC contém 3848 textos clínicos de diferentes áreas da medicina, anotados por 8 anotadores médicos. O conjunto de dados abrange cinco tipos de erros:

Diagnóstico: O diagnóstico fornecido é impreciso.
Gestão: As medidas de gestão subsequentes fornecidas são imprecisas.
Farmacoterapia: O tratamento medicamentoso recomendado é impreciso.
Tratamento: O plano de tratamento recomendado é impreciso.
Agente Causal: O organismo ou agente patogénico identificado é impreciso.

A seleção destes tipos de erros baseou-se nos tipos de questões mais comuns nos exames do conselho de medicina.

Métodos de Criação de Dados

O conjunto de dados foi construído utilizando dois métodos:

Método #1 (MS): Utilizar questões de exames do conselho médico do conjunto MedQA, com anotadores de formação médica a injetarem respostas erradas no texto do cenário.
Método #2 (UW): Utilizar a base de dados de notas clínicas reais de três hospitais da Universidade de Washington, com equipas de estudantes de medicina a introduzirem manualmente erros nos registos.

Ambos os métodos foram submetidos a um rigoroso controlo de qualidade para garantir a precisão e a fiabilidade dos dados.

Métodos de Deteção e Correção de Erros Médicos

Para avaliar o desempenho dos modelos na deteção e correção de erros médicos, os investigadores dividiram o processo em três subtarefas:

Subtarefa A: Prever o sinalizador de erro (0: sem erro; 1: com erro).
Subtarefa B: Extrair a frase que contém o erro.
Subtarefa C: Gerar conteúdo corrigido para a frase que contém o erro.

A equipa de investigação construiu soluções baseadas em LLM e utilizou duas instruções diferentes para gerar os resultados necessários.

Experimentos e Resultados

Modelos de Linguagem

Os investigadores realizaram experiências com vários modelos de linguagem, incluindo Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini e o1-preview.

Análise dos Resultados Experimentais

Os resultados experimentais mostraram que o Claude 3.5 Sonnet teve um desempenho excelente na deteção de sinalizadores de erro e na deteção de frases com erros. O o1-preview teve o melhor desempenho na correção de erros. No entanto, todos os modelos ainda não são tão bons quanto os médicos humanos na deteção e correção de erros médicos.

Os resultados também mostraram que os modelos têm problemas de precisão e, em muitos casos, sobrestimaram a existência de erros (ou seja, produziram alucinações). Além disso, existe uma diferença de classificação entre o desempenho da classificação e o desempenho da geração de correção de erros.

Análise dos Tipos de Erros

Em termos de deteção e correção de diferentes tipos de erros, o o1-preview teve uma taxa de recall mais elevada na deteção de sinalizadores de erro e de frases, mas os médicos tiveram um desempenho melhor em termos de precisão.

Direções para Pesquisas Futuras

Os investigadores afirmam que os próximos passos da investigação incluem a introdução de mais exemplos e a otimização das instruções para melhorar ainda mais o desempenho dos modelos na deteção e correção de erros médicos. Estas melhorias visam aumentar a fiabilidade e a precisão dos modelos no contexto médico.