Um dos aspectos mais estranhos e enervantes dos principais sistemas de inteligência artificial (IA) da atualidade é que ninguém - nem mesmo as pessoas que os criam - sabe realmente como os sistemas funcionam.
Isso se deve ao fato de que os grandes modelos de linguagem, o tipo de sistema de IA que alimenta o ChatGPT e outros chatbots populares, não são programados linha por linha por engenheiros humanos, como acontece com os programas de computador convencionais.
Em vez disso, esses sistemas aprendem essencialmente por conta própria, ingerindo grandes quantidades de dados e identificando padrões e relacionamentos na linguagem e, em seguida, usando esse conhecimento para prever as próximas palavras em uma sequência.
Uma consequência da criação de sistemas de IA dessa forma é a dificuldade de fazer engenharia reversa neles ou de corrigir problemas identificando bugs específicos no código. No momento, se um usuário digitar “Qual cidade americana tem a melhor comida?” e um chatbot responder com “Tóquio”, não há uma maneira real de entender por que o modelo cometeu esse erro ou por que a próxima pessoa que perguntar pode receber uma resposta diferente.
E quando grandes modelos de linguagem se comportam mal ou saem dos trilhos, ninguém consegue explicar o motivo (eu me deparei com esse problema no ano passado, quando um chatbot do Bing agiu de forma desequilibrada durante uma interação comigo, e nem mesmo os principais executivos da Microsoft puderam me dizer com certeza o que tinha dado errado).
A inescrutabilidade de grandes modelos de linguagem não é apenas um incômodo, mas um dos principais motivos pelos quais alguns pesquisadores temem que sistemas poderosos de IA possam se tornar uma ameaça à humanidade.
Afinal, se não pudermos entender o que está acontecendo dentro desses modelos, como saberemos se eles podem ser usados para criar novas armas biológicas, espalhar propaganda política ou escrever códigos de computador maliciosos para ataques cibernéticos? Se sistemas poderosos de IA começarem a nos desobedecer ou a nos enganar, como poderemos impedi-los se não conseguirmos entender o que está causando esse comportamento?
Leia também
Para resolver esses problemas, um pequeno subcampo de pesquisa de IA conhecido como “interpretabilidade mecanicista” passou anos tentando examinar as entranhas dos modelos de linguagem de IA. O trabalho tem sido lento, e o progresso tem sido gradual.
Também tem havido uma resistência cada vez maior à ideia de que os sistemas de IA representam um grande risco. Na semana retrasada, dois pesquisadores sênior de segurança da OpenAI, fabricante do ChatGPT, deixaram a empresa em meio a conflitos com executivos sobre se a empresa estava fazendo o suficiente para tornar seus produtos seguros.
Mas na semana passada, uma equipe de pesquisadores da empresa de IA Anthropic anunciou o que eles chamaram de um grande avanço - que eles esperam que nos dê a capacidade de entender mais sobre como os modelos de linguagem de IA realmente funcionam e, possivelmente, evitar que eles se tornem prejudiciais.
A equipe resumiu suas descobertas esta semana em uma publicação de blog chamada “Mapping the Mind of a Large Language Model” (Mapeando a mente de um grande modelo de linguagem).
Os pesquisadores analisaram o interior de um dos modelos de IA da Anthropic - Claude 3 Sonnet, uma versão do modelo de linguagem Claude 3 da empresa - e usaram uma técnica conhecida como “aprendizado de dicionário” para descobrir padrões de como as combinações de neurônios, as unidades matemáticas dentro do modelo de IA, eram ativadas quando Claude era solicitado a falar sobre determinados tópicos. Eles identificaram cerca de 10 milhões desses padrões, que eles chamam de “características”.
Eles descobriram que um recurso, por exemplo, estava ativo sempre que Claude era solicitado a falar sobre São Francisco. Outros recursos estavam ativos sempre que tópicos como imunologia ou termos científicos específicos, como o elemento químico lítio, eram mencionados. E alguns recursos estavam vinculados a conceitos mais abstratos, como engano ou preconceito de gênero.
Eles também descobriram que ativar ou desativar manualmente determinados recursos poderia alterar o comportamento do sistema de IA ou fazer com que o sistema até mesmo violasse suas próprias regras.
Por exemplo, eles descobriram que, se forçassem a ativação de um recurso ligado ao conceito de bajulação, Claude responderia com elogios floridos e exagerados ao usuário, inclusive em situações em que a bajulação era inadequada.
Chris Olah, que liderou a equipe de pesquisa de “interpretabilidade” antrópica, disse em uma entrevista que essas descobertas poderiam permitir que as empresas de IA controlassem seus modelos de forma mais eficaz.
“Estamos descobrindo recursos que podem esclarecer preocupações sobre preconceitos, riscos de segurança e autonomia”, disse ele. “Estou muito animado com a possibilidade de transformar essas questões polêmicas sobre as quais as pessoas discutem em coisas sobre as quais podemos realmente ter um discurso mais produtivo.”
Outros pesquisadores descobriram fenômenos semelhantes em modelos de linguagem de pequeno e médio porte, mas a equipe da Anthropic está entre as primeiras a aplicar essas técnicas a um modelo em tamanho real.
Jacob Andreas, professor associado de ciência da computação do MIT, que analisou um resumo da pesquisa da Anthropic, caracterizou-a como um sinal de esperança de que a interpretabilidade em larga escala pode ser possível.
“Da mesma forma que a compreensão de aspectos básicos sobre como as pessoas trabalham nos ajudou a curar doenças, a compreensão de como esses modelos funcionam nos permitirá reconhecer quando as coisas estão prestes a dar errado e nos permitirá criar ferramentas melhores para controlá-las”, disse ele.
Olah, líder da pesquisa Anthropic, advertiu que, embora as novas descobertas representem um progresso importante, a “interpretabilidade” da IA ainda está longe de ser um problema resolvido.
Para começar, disse ele, os maiores modelos de IA provavelmente contêm bilhões de recursos que representam conceitos distintos - muito mais do que os cerca de 10 milhões de recursos que a equipe do Anthropic afirma ter descoberto. Encontrar todos eles exigiria uma enorme quantidade de poder de computação e seria muito caro para todas as empresas de IA, exceto as mais ricas.
Mesmo que os pesquisadores identificassem todos os recursos em um grande modelo de IA, eles ainda precisariam de mais informações para entender todo o funcionamento interno do modelo. Também não há garantia de que as empresas de IA agiriam para tornar seus sistemas mais seguros.
Ainda assim, disse Olah, até mesmo abrir um pouco essas caixas-pretas de IA poderia permitir que as empresas, os órgãos reguladores e o público em geral se sentissem mais confiantes de que esses sistemas podem ser controlados.
“Há muitos outros desafios à nossa frente, mas o que parecia mais assustador não parece mais um obstáculo”, disse ele.
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.