- Published on
Parâmetros dos Modelos OpenAI Vazados: Artigo da Microsoft Revela o Tamanho do GPT4o
Revelação dos Parâmetros dos Modelos OpenAI
Na comunidade tecnológica, a escala de parâmetros dos grandes modelos de linguagem (LLM) tem sido mantida em sigilo. No entanto, um recente artigo de pesquisa médica, fruto de uma colaboração entre a Microsoft e a Universidade de Washington, inadvertidamente revelou informações sobre os parâmetros de vários modelos da OpenAI, captando a atenção de muitos.
Parâmetros Expostos
O artigo revelou informações cruciais, incluindo:
- GPT-4: Aproximadamente 1,76 triliões de parâmetros
- GPT-4o: Cerca de 200 mil milhões de parâmetros
- GPT-4o mini: Aproximadamente 8 mil milhões de parâmetros
- o1-preview: Cerca de 300 mil milhões de parâmetros
- o1-mini: Aproximadamente 100 mil milhões de parâmetros
- Claude 3.5 Sonnet: Cerca de 175 mil milhões de parâmetros
É importante notar que os investigadores declararam que estes parâmetros são estimativas.
Discussão em Torno dos Parâmetros da Série GPT-4o
É surpreendente que a série GPT-4o tenha um número de parâmetros muito inferior ao esperado, especialmente a versão mini, com apenas 8 mil milhões. Alguns especularam que o GPT-4o mini pode usar uma arquitetura de modelo de mistura de especialistas (MoE), com 8 mil milhões de parâmetros realmente ativados, mas um total de 40 mil milhões de parâmetros no modelo completo. Esta arquitetura pode permitir que modelos menores aprendam mais conhecimento, mantendo a velocidade de operação.
Comparação dos Parâmetros do Claude 3.5 Sonnet
Além disso, alguns comentários apontaram que o número de parâmetros do Claude 3.5 Sonnet é comparável ao do GPT-3 davinci, o que levanta questões sobre a relação entre o desempenho e a escala de diferentes modelos. Esta comparação estimula uma reflexão sobre a eficácia dos modelos, independentemente do seu tamanho.
MEDEC: Um Novo Padrão para a Detecção de Erros Médicos
O artigo que vazou os parâmetros é, na verdade, sobre um padrão de avaliação chamado MEDEC1, projetado para avaliar o desempenho de grandes modelos de linguagem na deteção e correção de erros médicos. Este padrão centra-se em erros em notas clínicas e abrange cinco áreas: diagnóstico, gestão, tratamento, farmacoterapia e agentes causais.
Origem e Características dos Dados
O conjunto de dados MEDEC inclui 488 notas clínicas de três sistemas hospitalares dos EUA, totalizando 3848 textos clínicos. Estes dados nunca foram expostos a nenhum grande modelo de linguagem, garantindo a autenticidade e a fiabilidade da avaliação. Atualmente, este conjunto de dados está a ser utilizado na tarefa partilhada MEDIQA-CORR para avaliar o desempenho de 17 sistemas participantes.
Testes e Resultados
A equipa de investigação utilizou o conjunto de dados MEDEC para testar vários modelos avançados, incluindo o o1-preview, GPT-4, Claude 3.5 Sonnet e Gemini 2.0 Flash. Além disso, dois médicos foram convidados a participar nas mesmas tarefas de deteção de erros para uma comparação homem-máquina.
Os resultados mostraram que, embora os grandes modelos de linguagem sejam excelentes na deteção e correção de erros médicos, ainda existem lacunas quando comparados com os médicos humanos. Isso demonstra que o MEDEC é um padrão de avaliação desafiador.
O Núcleo do Artigo: Aplicações e Desafios dos LLMs na Área Médica
O artigo aponta que uma pesquisa realizada em instituições médicas dos EUA revela que um em cada cinco pacientes que leem notas clínicas reporta ter encontrado erros. Desses erros, 40% são considerados graves, sendo os mais comuns os erros relacionados com o diagnóstico.
Aplicações e Riscos dos LLMs em Documentos Médicos
Com cada vez mais tarefas de documentação médica (como a geração de notas clínicas) a serem realizadas por grandes modelos de linguagem, é fundamental garantir a precisão e a segurança das informações produzidas pelos LLMs. Os LLMs podem gerar alucinações, produzindo conteúdo incorreto ou fictício, o que pode ter um impacto significativo nas decisões clínicas.
A Importância do Padrão MEDEC
Para resolver estes problemas e garantir a segurança dos LLMs na geração de conteúdo médico, são necessários métodos de verificação rigorosos. A introdução do padrão MEDEC tem como objetivo avaliar a capacidade dos modelos de detetar e corrigir erros médicos em textos clínicos.
Construção do Conjunto de Dados MEDEC
O conjunto de dados MEDEC contém 3848 textos clínicos de diferentes áreas da medicina, anotados por 8 anotadores médicos. O conjunto de dados abrange cinco tipos de erros:
- Diagnóstico: O diagnóstico fornecido é impreciso.
- Gestão: As medidas de gestão subsequentes fornecidas são imprecisas.
- Farmacoterapia: O tratamento medicamentoso recomendado é impreciso.
- Tratamento: O plano de tratamento recomendado é impreciso.
- Agente Causal: O organismo ou agente patogénico identificado é impreciso.
A seleção destes tipos de erros baseou-se nos tipos de questões mais comuns nos exames do conselho de medicina.
Métodos de Criação de Dados
O conjunto de dados foi construído utilizando dois métodos:
- Método #1 (MS): Utilizar questões de exames do conselho médico do conjunto MedQA, com anotadores de formação médica a injetarem respostas erradas no texto do cenário.
- Método #2 (UW): Utilizar a base de dados de notas clínicas reais de três hospitais da Universidade de Washington, com equipas de estudantes de medicina a introduzirem manualmente erros nos registos.
Ambos os métodos foram submetidos a um rigoroso controlo de qualidade para garantir a precisão e a fiabilidade dos dados.
Métodos de Deteção e Correção de Erros Médicos
Para avaliar o desempenho dos modelos na deteção e correção de erros médicos, os investigadores dividiram o processo em três subtarefas:
- Subtarefa A: Prever o sinalizador de erro (0: sem erro; 1: com erro).
- Subtarefa B: Extrair a frase que contém o erro.
- Subtarefa C: Gerar conteúdo corrigido para a frase que contém o erro.
A equipa de investigação construiu soluções baseadas em LLM e utilizou duas instruções diferentes para gerar os resultados necessários.
Experimentos e Resultados
Modelos de Linguagem
Os investigadores realizaram experiências com vários modelos de linguagem, incluindo Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash, ChatGPT, GPT-4, GPT-4o, o1-mini e o1-preview.
Análise dos Resultados Experimentais
Os resultados experimentais mostraram que o Claude 3.5 Sonnet teve um desempenho excelente na deteção de sinalizadores de erro e na deteção de frases com erros. O o1-preview teve o melhor desempenho na correção de erros. No entanto, todos os modelos ainda não são tão bons quanto os médicos humanos na deteção e correção de erros médicos.
Os resultados também mostraram que os modelos têm problemas de precisão e, em muitos casos, sobrestimaram a existência de erros (ou seja, produziram alucinações). Além disso, existe uma diferença de classificação entre o desempenho da classificação e o desempenho da geração de correção de erros.
Análise dos Tipos de Erros
Em termos de deteção e correção de diferentes tipos de erros, o o1-preview teve uma taxa de recall mais elevada na deteção de sinalizadores de erro e de frases, mas os médicos tiveram um desempenho melhor em termos de precisão.
Direções para Pesquisas Futuras
Os investigadores afirmam que os próximos passos da investigação incluem a introdução de mais exemplos e a otimização das instruções para melhorar ainda mais o desempenho dos modelos na deteção e correção de erros médicos. Estas melhorias visam aumentar a fiabilidade e a precisão dos modelos no contexto médico.