- Published on
O Futuro dos Grandes Modelos de IA: CEO da Anthropic Acredita que a Lei de Escala Ainda Não Atingiu seu Limite
O Futuro da IA e a Lei de Escala
O campo da inteligência artificial está em constante evolução, com avanços que antes pareciam ficção científica se tornando realidade. Um dos temas mais debatidos é a lei de escala, que sugere que o desempenho dos modelos de IA melhora à medida que aumentamos seu tamanho, a quantidade de dados e o tempo de treinamento. Dario Amodei, CEO da Anthropic, uma das empresas líderes nesse setor, expressa uma visão otimista sobre o futuro da lei de escala, argumentando que ela ainda não atingiu seus limites.
Superando as Limitações de Dados
Uma das maiores preocupações em relação à lei de escala é a possível escassez de dados. No entanto, Amodei acredita que essa limitação pode ser superada através do uso de dados sintéticos e modelos de raciocínio. Dados sintéticos, gerados artificialmente, podem complementar os dados reais, enquanto modelos de raciocínio podem permitir que os modelos de IA aprendam com menos exemplos.
Melhorias Notáveis nos Modelos
Os modelos de IA têm apresentado melhorias notáveis em suas capacidades. Amodei destaca o aumento significativo no desempenho no benchmark SWE-bench, que passou de 3-4% para 50% em apenas dez meses. Essas melhorias demonstram o potencial de crescimento contínuo e a capacidade de adaptação dos modelos.
A Importância do Pós-Treinamento
O custo do pós-treinamento, que envolve ajustar os modelos após o treinamento inicial, está se tornando cada vez mais relevante. Amodei argumenta que, no futuro, o custo do pós-treinamento provavelmente excederá o custo do pré-treinamento. Métodos baseados apenas na supervisão humana para melhorar a qualidade do modelo não são escaláveis, tornando necessário o desenvolvimento de métodos de supervisão mais eficientes.
Além dos Benchmarks
Nem sempre os benchmarks capturam todas as características e diferenças entre os modelos. Fatores como polidez, objetividade, capacidade de resposta e proatividade também desempenham um papel importante no comportamento do modelo. É crucial entender que os modelos são projetados para funcionar e completar tarefas, e não necessariamente para serem facilmente compreendidos por humanos.
O Papel do RLHF
O Aprendizado por Reforço a partir do Feedback Humano (RLHF) é uma ferramenta essencial para melhorar a comunicação entre humanos e modelos. Em vez de tornar os modelos inerentemente mais inteligentes, o RLHF ajuda a "desamarrar" certas limitações, permitindo que eles se comuniquem de forma mais eficaz.
Percepções do Usuário
É comum que usuários sintam que os modelos de IA estão se tornando "mais burros". Essa percepção pode estar relacionada à complexidade dos modelos e a muitos fatores que influenciam seu desempenho. A interação direta com os modelos é crucial para entendê-los, em vez de apenas ler artigos de pesquisa.
Inteligência Artificial Constitucional
A IA constitucional é uma abordagem inovadora que utiliza um conjunto de princípios para guiar o treinamento do modelo. Essa abordagem reduz a dependência do RLHF e melhora a utilização de cada ponto de dados do RLHF.
O Contexto e a Experiência de Dario Amodei
Dario Amodei tem uma vasta experiência no campo da IA, com mais de dez anos de trabalho. Ele começou com sistemas de reconhecimento de fala e observou que o aumento do tamanho do modelo, dos dados e do tempo de treinamento melhorava o desempenho. A mudança de 2014 para 2017 foi crucial, confirmando que o aumento do tamanho do modelo poderia levar à realização de tarefas cognitivas complexas.
Os Componentes da Lei de Escala
A lei de escala envolve a expansão linear do tamanho da rede, do tempo de treinamento e dos dados. Esses três componentes devem ser aumentados proporcionalmente para garantir o máximo desempenho. A lei de escala também se aplica a outras modalidades, como imagens, vídeos e matemática, e também a pós-treinamento e novos modelos de resignação.
Entendendo a Lei de Escala
O conceito da lei de escala está relacionado ao "ruído 1/f" e à "distribuição 1/x" na física, onde processos naturais têm escalas diferentes e modelos maiores capturam padrões mais complexos. Embora os limites exatos da lei de escala sejam desconhecidos, Amodei acredita que ela pode levar à inteligência de nível humano.
Limitações e Soluções
A escassez de dados é uma limitação potencial, mas dados sintéticos e modelos de raciocínio podem ajudar. As limitações computacionais também são um fator, mas as escalas atuais estão na casa dos bilhões, com expectativas de alcançar dezenas de bilhões no próximo ano e potencialmente centenas de bilhões até 2027.
Desenvolvimento e Características dos Modelos
A Anthropic lançou a série Claude 3, com modelos de diferentes tamanhos e capacidades: Opus (o mais poderoso), Sonnet (médio) e Haiku (rápido e econômico). Os nomes foram inspirados na poesia, com Haiku sendo o mais curto e Opus o mais extenso. Cada nova geração de modelos visa melhorar o equilíbrio entre desempenho e custo.
O Processo de Treinamento
O processo de treinamento inclui pré-treinamento (longo e computacionalmente intensivo), pós-treinamento (RLHF e outros métodos de RL) e testes de segurança. Os dados de preferência de modelos mais antigos podem ser reutilizados para treinar novos modelos. A IA constitucional permite que os modelos se treinem com base em um conjunto de princípios.
Personalidades dos Modelos
Os modelos têm características únicas que nem sempre são capturadas por benchmarks, como polidez e capacidade de resposta.
Codificação e IDEs
O modelo Sonnet 3.5 mostrou melhorias significativas em codificação, economizando horas de trabalho para engenheiros. O desempenho no benchmark SWE-bench aumentou de 3% para 50% em 10 meses. A IA está transformando a programação, com a capacidade de escrever, executar e analisar código, criando um sistema de ciclo fechado para rápido progresso.
O Futuro da Programação
Espera-se que a IA lide com a maioria das tarefas de codificação de rotina até 2026 ou 2027, permitindo que os humanos se concentrem no design e arquitetura de sistemas de alto nível. Embora os IDEs tenham grande potencial de melhoria, a Anthropic prefere fornecer APIs para que outros construam ferramentas.
Uso de Computador e Segurança
A funcionalidade de uso de computador permite que os modelos analisem capturas de tela e executem ações clicando ou pressionando teclas. A capacidade de usar capturas de tela é um bom exemplo de generalização, onde um modelo pré-treinado poderoso pode se adaptar facilmente a novas tarefas.
Segurança e Responsabilidade
O uso de computador é inicialmente lançado como uma API devido a preocupações de segurança. É importante usar esses modelos poderosos com segurança e evitar o uso indevido. A Política de Escala Responsável (RSP) é usada para testar modelos quanto a riscos potenciais. Os modelos são categorizados em diferentes níveis de ASL com base em suas capacidades e riscos potenciais.
Sandboxing e Interpretabilidade
O sandboxing é usado durante o treinamento para impedir que os modelos interajam com o mundo real. A interpretabilidade do mecanismo é crucial para entender e controlar os modelos, especialmente em níveis de ASL mais altos.
RLHF e Comportamento do Modelo
O RLHF ajuda os modelos a se comunicarem melhor com os humanos, e não necessariamente os torna mais inteligentes. Ele pode "desamarrar" modelos, removendo algumas limitações, mas não todas. Os custos de pós-treinamento devem exceder os custos de pré-treinamento no futuro. Métodos baseados apenas na supervisão humana não são escaláveis, necessitando de métodos mais escaláveis.
Complexidade do Comportamento
A percepção de que os modelos estão ficando "mais burros" pode ser devido à complexidade dos modelos e sua sensibilidade aos prompts. Controlar o comportamento do modelo é difícil, e há compensações entre diferentes características. O feedback do usuário é crucial, mas difícil de coletar e interpretar.
Competição e Direções Futuras
A Anthropic busca ser um exemplo para outras empresas, promovendo o desenvolvimento responsável da IA. A interpretabilidade do mecanismo é uma área chave de pesquisa. Os modelos são projetados para funcionar e completar tarefas, não para serem facilmente compreendidos por humanos.
Talento e Mentalidade
Uma alta densidade de talentos de ponta é crucial para o sucesso, em vez de apenas uma equipe grande. Uma mentalidade aberta e disposição para experimentar são qualidades importantes para pesquisadores e engenheiros de IA. A interação direta com os modelos é fundamental para entendê-los.
IA Constitucional e Especificação do Modelo
A IA constitucional permite que os modelos se treinem com base em um conjunto de princípios. O conceito de especificação do modelo, semelhante à IA constitucional, define metas e comportamentos do modelo. O uso indevido catastrófico é uma grande preocupação, envolvendo o uso de modelos em áreas como segurança cibernética e bioarmas.
Riscos e Níveis de Segurança
À medida que os modelos ganham mais autonomia, é importante garantir que eles estejam alinhados com as intenções humanas. Os níveis de ASL categorizam os modelos com base em suas capacidades e riscos potenciais. O cronograma para alcançar a AGI é incerto, mas pode ser nos próximos anos. A AGI tem o potencial de revolucionar a biologia e a medicina, acelerando a pesquisa e o desenvolvimento.
O Papel da IA na Pesquisa e Produtividade
Nos estágios iniciais, a IA atuará como assistente de pesquisa, ajudando cientistas com experimentos e análise de dados. Embora a IA tenha o potencial de aumentar significativamente a produtividade, também existem desafios relacionados às estruturas organizacionais e à lenta adoção de novas tecnologias.