PUBLICIDADE

ChatGPT pode alucinar mais do que se imagina

Taxa de ‘alucinação’ desses chatbots pode ir de 3% a 27%, segundo estudo da startup americana Vectara

PUBLICIDADE

Por Cade Metz

THE NEW YORK TIMES - Quando a OpenAI, startup de São Francisco, apresentou seu chatbot online ChatGPT no final do ano passado, milhões de pessoas ficaram impressionadas com a forma humana com que ele respondia a perguntas, escrevia poesias e discutia praticamente qualquer assunto. Mas a maioria das pessoas demorou a perceber que esse novo tipo de chatbot frequentemente inventa coisas.

PUBLICIDADE

Quando o Google apresentou um chatbot semelhante várias semanas depois, ele vomitou bobagens sobre o telescópio James Webb. No dia seguinte, o novo chatbot do Bing, da Microsoft, ofereceu todos os tipos de informações falsas sobre a Gap, a vida noturna mexicana e a cantora Billie Eilish. Depois, em março, o ChatGPT citou meia dúzia de processos judiciais falsos ao redigir uma petição de 10 páginas que um advogado apresentou a um juiz federal em Manhattan.

Agora, uma nova startup chamada Vectara, fundada por ex-funcionários do Google, está tentando descobrir com que frequência os chatbots se desviam da verdade. A pesquisa da empresa estima que, mesmo em situações projetadas para evitar que isso aconteça, os chatbots inventam informações em pelo menos 3% das vezes - e em até 27%.

Os especialistas chamam esse comportamento do chatbot de “alucinação”. Pode não ser um problema para as pessoas que mexem com chatbots em seus computadores pessoais, mas é um problema sério para quem usa essa tecnologia com documentos judiciais, informações médicas ou dados comerciais confidenciais.

O fato de o sistema de IA ainda poder introduzir erros é um problema fundamental

Amr Awadallah, executivo da Vectara e ex-Google

Como esses chatbots podem responder a praticamente qualquer solicitação de um número ilimitado de maneiras, não há como determinar definitivamente a frequência com que eles alucinam. “Seria necessário analisar todas as informações do mundo”, disse Simon Hughes, pesquisador da Vectara que liderou o projeto.

Hughes e sua equipe pediram a esses sistemas que realizassem uma única tarefa simples facilmente verificável: resumir artigos de notícias. Mesmo assim, os chatbots inventaram informações persistentemente.

“Demos ao sistema de 10 a 20 fatos e pedimos um resumo desses fatos”, disse Amr Awadallah, executivo-chefe da Vectara e ex-executivo do Google. “O fato de o sistema ainda poder introduzir erros é um problema fundamental.”

Publicidade

Os pesquisadores argumentam que, quando esses chatbots realizam outras tarefas - além do mero resumo -, as taxas de alucinação podem ser mais altas.

Sua pesquisa também mostrou que as taxas de alucinação variam muito entre as principais empresas de IA. As tecnologias da OpenAI apresentaram a menor taxa, cerca de 3%. Os sistemas da Meta, proprietária do Facebook e do Instagram, ficaram em torno de 5%. O sistema Claude 2 oferecido pela Anthropic, uma rival da OpenAI também sediada em São Francisco, chegou a 8%. Um sistema do Google, o Palm chat, teve a maior taxa: 27%.

Amr Awadallah é o presidente executivo da startup americana Vectara Foto: Cayce Clifford/The New York Times - 31/10/2023

Uma porta-voz da Anthropic, Sally Aldous, disse: “Tornar nossos sistemas úteis, honestos e inofensivos, o que o que inclui evitar alucinações, é um de nossos principais objetivos como empresa”.

O Google se recusou a comentar, e a OpenAI e a Meta não responderam imediatamente aos pedidos de comentários.

Cuidado com chatbots

PUBLICIDADE

Com essa pesquisa, Hughes e Awadallah querem mostrar às pessoas que elas devem ter cuidado com as informações provenientes de chatbots e até mesmo com o serviço que a Vectara vende para empresas. Atualmente, muitas empresas estão oferecendo esse tipo de tecnologia para uso comercial.

Sediada em Palo Alto, Califórnia, a Vectara é uma startup de 30 pessoas apoiada por US$ 28,5 milhões em financiamento inicial. Um de seus fundadores, Amin Ahmad, ex-pesquisador de inteligência artificial do Google, trabalha com esse tipo de tecnologia desde 2017, quando ela foi incubada dentro do Google e em algumas outras empresas.

Assim como o chatbot de pesquisa do Bing, da Microsoft, pode recuperar informações da internet aberta, o serviço da Vectara pode recuperar informações da coleção privada de e-mails, documentos e outros arquivos de uma empresa.

Publicidade

Os pesquisadores também esperam que seus métodos (que estão sendo compartilhados publicamente e continuarão a ser atualizados) ajudem a estimular os esforços de todo o setor para reduzir as alucinações. A OpenAI, o Google e outras empresas estão trabalhando para minimizar o problema por meio de várias técnicas, embora não esteja claro se elas podem eliminá-lo.

“Uma boa analogia é um carro que dirige sozinho”, disse Philippe Laban, pesquisador da Salesforce que há muito tempo explora esse tipo de tecnologia. “Não é possível evitar que um carro autônomo bata. Mas você pode tentar garantir que ele seja mais seguro do que um motorista humano.”

ChatGPT foi lançado em novembro de 2022 pela OpenAI Foto: Dado Ruvic/Reuters

Os chatbots, como o ChatGPT, são orientados por uma tecnologia chamada modelo amplo de linguagem (ou LLM, na sigla em inglês), que aprende suas habilidades analisando enormes quantidades de texto digital, incluindo livros, artigos da Wikipédia e registros de bate-papo online. Ao identificar padrões em todos esses dados, um LLM aprende a fazer uma coisa em particular: adivinhar a próxima palavra em uma sequência de palavras.

Como a internet está repleta de informações inverídicas, esses sistemas repetem as mesmas inverdades. Eles também se baseiam em probabilidades: Qual é a chance matemática de que a próxima palavra seja “playwright”? De tempos em tempos, eles adivinham incorretamente.

A nova pesquisa da Vectara mostra como isso pode acontecer. Ao resumir artigos de notícias, os chatbots não repetem inverdades de outras partes da Internet. Eles apenas erram no resumo.

Por exemplo, os pesquisadores pediram ao modelo de linguagem grande do Google, o Palm chat, para resumir este pequeno trecho de um artigo de notícias:

As plantas foram encontradas durante a busca em um depósito perto de Ashbourne na manhã de sábado. A polícia disse que elas estavam em “uma elaborada casa de cultivo”. Um homem de 40 e poucos anos foi preso no local.

Publicidade

O relatório fez esse resumo, inventando completamente um valor para as plantas que o homem estava cultivando e presumindo (talvez incorretamente) que eram plantas de maconha:

A polícia prendeu um homem de 40 e poucos anos depois que plantas de cannabis com valor estimado em £100.000 foram encontradas em um armazém perto de Ashbourne.

Esse fenômeno também mostra por que uma ferramenta como o chatbot do Bing pode errar ao recuperar informações da internet. Se você fizer uma pergunta ao chatbot, ele poderá chamar o mecanismo de busca Bing e fazer uma pesquisa na internet. Mas ele não tem como identificar a resposta correta. Ele pega os resultados dessa pesquisa na web e os resume para você.

Às vezes, esse resumo é muito falho. Alguns bots citam endereços da Internet que são totalmente inventados.


Resposta das empresas

Empresas como a OpenAI, o Google e a Microsoft desenvolveram maneiras de melhorar a precisão de suas tecnologias. A OpenAI, por exemplo, tenta refinar sua tecnologia com o feedback de testadores humanos, que avaliam as respostas do chatbot, separando as respostas úteis e verdadeiras daquelas que não são. Em seguida, usando uma técnica chamada aprendizado por reforço, o sistema passa semanas analisando as classificações para entender melhor o que é fato e o que é ficção.

Mas os pesquisadores alertam que a alucinação do chatbot não é um problema fácil de resolver. Como os chatbots aprendem com padrões nos dados e operam de acordo com probabilidades, eles se comportam de maneiras indesejadas pelo menos em parte do tempo.

Para determinar a frequência com que os chatbots alucinavam ao resumir artigos de notícias, os pesquisadores da Vectara usaram outro modelo de linguagem grande para verificar a precisão de cada resumo. Essa era a única maneira de verificar com eficiência um número tão grande de resumos.

Publicidade

Mas James Zou, professor de ciência da computação de Stanford, disse que esse método tem uma ressalva. O modelo de linguagem que faz a verificação também pode cometer erros.

“O detector de alucinação poderia ser enganado - ou alucinar a si mesmo”, disse ele. / TRADUÇÃO POR GUILHERME GUERRA

Comentários

Os comentários são exclusivos para assinantes do Estadão.