THE NEW YORK TIMES - LIFE/STYLE - Quando a startup OpenAI de São Francisco revelou seu chatbot on-line ChatGPT no final do ano passado, milhões de pessoas ficaram impressionadas com a maneira humana com a qual ele respondia a perguntas, escrevia poesia e discutia quase todos os assuntos. Mas a maioria das pessoas demorou a perceber que esse novo tipo de chatbot muitas vezes inventa coisas.
Quando o Google lançou um chatbot semelhante, várias semanas depois, ele disse bobagens sobre o telescópio James Webb. No dia seguinte, o novo chatbot do Bing da Microsoft ofereceu todo tipo de informações falsas sobre a Gap, a vida noturna mexicana e a cantora Billie Eilish. Então, em março, o ChatGPT citou meia dúzia de processos judiciais falsos enquanto redigia um documento jurídico de 10 páginas que um advogado apresentou a um juiz federal em Manhattan.
Agora, uma nova startup chamada Vectara, fundada por ex-funcionários do Google, está tentando descobrir com que frequência os chatbots se desviam da verdade. A pesquisa da empresa estima que mesmo em situações destinadas a evitar que isso aconteça, os chatbots inventam informações pelo menos 3% das vezes - e até mesmo 27%.
Os especialistas chamam esse comportamento do chatbot de “alucinação”. Isso pode não ser um problema para as pessoas que mexem com chatbots nos seus computadores pessoais, mas é um problema sério para qualquer pessoa que utilize esta tecnologia com documentos judiciais, informações médicas ou dados comerciais sensíveis.
Como esses chatbots podem responder a quase qualquer solicitação de um número ilimitado de maneiras, não há como determinar com certeza com que frequência eles alucinam. “Seria necessário analisar todas as informações do mundo”, disse Simon Hughes, o pesquisador da Vectara que liderou o projeto.
Hughes e sua equipe pediram que esses sistemas executassem uma tarefa única e direta que pode ser facilmente verificada: resumir artigos de notícias. Mesmo assim, os chatbots inventaram informações persistentemente.
“Fornecemos ao sistema de 10 a 20 fatos e pedimos um resumo desses fatos”, disse Amr Awadallah, CEO da Vectara e ex-executivo do Google. “O fato de o sistema ainda poder introduzir erros é um problema fundamental.”
Os pesquisadores argumentam que quando esses chatbots realizam outras tarefas - além do mero resumo - as taxas de alucinação podem ser maiores.
Taxas de alucinação variadas
A sua pesquisa também mostrou que as taxas de alucinação variam amplamente entre as principais empresas de IA. As tecnologias da OpenAI tiveram a menor taxa, cerca de 3%. Os sistemas da Meta, proprietária do Facebook e do Instagram, giravam em torno de 5%. O sistema Claude 2 oferecido pela Anthropic, rival da OpenAI também com sede em São Francisco, chegou a 8%. Um sistema do Google, o Palm chat, teve a taxa mais alta, 27%.
Uma porta-voz da Anthropic, Sally Aldous, disse: “Tornar nossos sistemas úteis, honestos e inofensivos, o que inclui evitar alucinações, é um dos nossos principais objetivos como empresa”.
O Google se recusou a comentar e a OpenAI e a Meta não responderam imediatamente aos pedidos de comentários.
Com esta pesquisa, Hughes e Awadallah querem mostrar às pessoas que elas devem ter cuidado com as informações que vêm dos chatbots e até mesmo com o serviço que a Vectara vende para empresas. Muitas empresas agora estão oferecendo esse tipo de tecnologia para uso comercial.
Com sede em Palo Alto, Califórnia, a Vectara é uma startup de 30 pessoas que teve US $ 28,5 milhões em capital inicial. Um de seus fundadores, Amin Ahmad, ex-pesquisador de inteligência artificial do Google, trabalha com esse tipo de tecnologia desde 2017, quando ela foi incubada no Google e em algumas outras empresas.
Assim como o chatbot de busca do Bing da Microsoft pode obter informações da Internet aberta, o serviço da Vectara pode obter informações da coleção privada de e-mails, documentos e outros arquivos de uma empresa.
Os pesquisadores também esperam que os seus métodos - que partilham publicamente e continuarão a atualizar - ajudem a estimular esforços em todo o setor para reduzir as alucinações. A OpenAI, o Google e outros estão trabalhando para minimizar o problema por meio de uma variedade de técnicas, embora não esteja claro se podem eliminá-lo.
Os chatbots, como o ChatGPT, são conduzidos por uma tecnologia chamada grande modelo de linguagem, ou LLM (large language model), que aprende as suas capacidades através da análise de enormes quantidades de texto digital, incluindo livros, artigos da Wikipedia e registros de conversação online. Ao identificar padrões em todos esses dados, um LLM aprende a fazer uma coisa em particular: adivinhar a palavra seguinte numa sequência de palavras.
Repetindo erros
Como a Internet está repleta de informações falsas, esses sistemas repetem as mesmas mentiras. Eles também se baseiam em probabilidades: qual é a chance matemática de a próxima palavra ser “dramaturgo”? De vez em quando, eles adivinham incorretamente.
A nova pesquisa da Vectara mostra como isso pode acontecer. Ao resumir artigos de notícias, os chatbots não repetem inverdades de outras partes da internet. Eles simplesmente erram no resumo.
Empresas como a OpenAI, o Google e a Microsoft desenvolveram formas de melhorar a precisão de suas tecnologias. A OpenAI, por exemplo, tenta refinar sua tecnologia com feedback de testadores humanos, que avaliam as respostas do chatbot, separando respostas úteis e verdadeiras daquelas que não o são. Depois, usando uma técnica chamada aprendizagem por reforço, o sistema passa semanas analisando as avaliações para entender melhor o que é fato e o que é ficção.
Mas os pesquisadores alertam que a alucinação do chatbot não é um problema fácil de resolver. Como os chatbots aprendem com padrões nos dados e operam de acordo com probabilidades, eles se comportam de maneira indesejada pelo menos algumas vezes.
Para determinar com que frequência os chatbots alucinavam ao resumir artigos de notícias, os pesquisadores da Vectara usaram outro grande modelo de linguagem para verificar a precisão de cada resumo. Essa foi a única forma de verificar eficientemente um número tão grande de resumos.
Mas James Zou, professor de ciência da computação da Universidade de Stanford, disse que esse método traz uma ressalva. O modelo de linguagem que faz a verificação também pode cometer erros.
“O detector de alucinações pode ser enganado - ou ter alucinações por si só”, disse ele. /TRADUÇÃO LÍVIA BUELONI GONÇALVES
The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times
Os comentários são exclusivos para assinantes do Estadão.