ChatGPT pode alucinar mais do que se imagina

THE NEW YORK TIMES - Quando a OpenAI, startup de São Francisco, apresentou seu chatbot online ChatGPT no final do ano passado, milhões de pessoas ficaram impressionadas com a forma humana com que ele respondia a perguntas, escrevia poesias e discutia praticamente qualquer assunto. Mas a maioria das pessoas demorou a perceber que esse novo tipo de chatbot frequentemente inventa coisas.

Quando o Google apresentou um chatbot semelhante várias semanas depois, ele vomitou bobagens sobre o telescópio James Webb. No dia seguinte, o novo chatbot do Bing, da Microsoft, ofereceu todos os tipos de informações falsas sobre a Gap, a vida noturna mexicana e a cantora Billie Eilish. Depois, em março, o ChatGPT citou meia dúzia de processos judiciais falsos ao redigir uma petição de 10 páginas que um advogado apresentou a um juiz federal em Manhattan.

Agora, uma nova startup chamada Vectara, fundada por ex-funcionários do Google, está tentando descobrir com que frequência os chatbots se desviam da verdade. A pesquisa da empresa estima que, mesmo em situações projetadas para evitar que isso aconteça, os chatbots inventam informações em pelo menos 3% das vezes - e em até 27%.

Os especialistas chamam esse comportamento do chatbot de “alucinação”. Pode não ser um problema para as pessoas que mexem com chatbots em seus computadores pessoais, mas é um problema sério para quem usa essa tecnologia com documentos judiciais, informações médicas ou dados comerciais confidenciais.

O fato de o sistema de IA ainda poder introduzir erros é um problema fundamental

Amr Awadallah, executivo da Vectara e ex-Google

Como esses chatbots podem responder a praticamente qualquer solicitação de um número ilimitado de maneiras, não há como determinar definitivamente a frequência com que eles alucinam. “Seria necessário analisar todas as informações do mundo”, disse Simon Hughes, pesquisador da Vectara que liderou o projeto.

Hughes e sua equipe pediram a esses sistemas que realizassem uma única tarefa simples facilmente verificável: resumir artigos de notícias. Mesmo assim, os chatbots inventaram informações persistentemente.

Cuidado com chatbots

Com essa pesquisa, Hughes e Awadallah querem mostrar às pessoas que elas devem ter cuidado com as informações provenientes de chatbots e até mesmo com o serviço que a Vectara vende para empresas. Atualmente, muitas empresas estão oferecendo esse tipo de tecnologia para uso comercial.

Sediada em Palo Alto, Califórnia, a Vectara é uma startup de 30 pessoas apoiada por US$ 28,5 milhões em financiamento inicial. Um de seus fundadores, Amin Ahmad, ex-pesquisador de inteligência artificial do Google, trabalha com esse tipo de tecnologia desde 2017, quando ela foi incubada dentro do Google e em algumas outras empresas.

Assim como o chatbot de pesquisa do Bing, da Microsoft, pode recuperar informações da internet aberta, o serviço da Vectara pode recuperar informações da coleção privada de e-mails, documentos e outros arquivos de uma empresa.

Os pesquisadores também esperam que seus métodos (que estão sendo compartilhados publicamente e continuarão a ser atualizados) ajudem a estimular os esforços de todo o setor para reduzir as alucinações. A OpenAI, o Google e outras empresas estão trabalhando para minimizar o problema por meio de várias técnicas, embora não esteja claro se elas podem eliminá-lo.

“Uma boa analogia é um carro que dirige sozinho”, disse Philippe Laban, pesquisador da Salesforce que há muito tempo explora esse tipo de tecnologia. “Não é possível evitar que um carro autônomo bata. Mas você pode tentar garantir que ele seja mais seguro do que um motorista humano.”

ChatGPT foi lançado em novembro de 2022 pela OpenAI Foto: Dado Ruvic/Reuters

Google Street View captura imagem de homem colocando saco em carro - e ajuda a resolver um crime

Pilares da IA dão sinais de esgotamento e colocam em xeque o futuro da tecnologia

Não cometa esses cinco erros que sabotam a internet da sua casa

Os chatbots, como o ChatGPT, são orientados por uma tecnologia chamada modelo amplo de linguagem (ou LLM, na sigla em inglês), que aprende suas habilidades analisando enormes quantidades de texto digital, incluindo livros, artigos da Wikipédia e registros de bate-papo online. Ao identificar padrões em todos esses dados, um LLM aprende a fazer uma coisa em particular: adivinhar a próxima palavra em uma sequência de palavras.

Como a internet está repleta de informações inverídicas, esses sistemas repetem as mesmas inverdades. Eles também se baseiam em probabilidades: Qual é a chance matemática de que a próxima palavra seja “playwright”? De tempos em tempos, eles adivinham incorretamente.

A nova pesquisa da Vectara mostra como isso pode acontecer. Ao resumir artigos de notícias, os chatbots não repetem inverdades de outras partes da Internet. Eles apenas erram no resumo.

Por exemplo, os pesquisadores pediram ao modelo de linguagem grande do Google, o Palm chat, para resumir este pequeno trecho de um artigo de notícias:

As plantas foram encontradas durante a busca em um depósito perto de Ashbourne na manhã de sábado. A polícia disse que elas estavam em “uma elaborada casa de cultivo”. Um homem de 40 e poucos anos foi preso no local.

O relatório fez esse resumo, inventando completamente um valor para as plantas que o homem estava cultivando e presumindo (talvez incorretamente) que eram plantas de maconha:

A polícia prendeu um homem de 40 e poucos anos depois que plantas de cannabis com valor estimado em £100.000 foram encontradas em um armazém perto de Ashbourne.

Esse fenômeno também mostra por que uma ferramenta como o chatbot do Bing pode errar ao recuperar informações da internet. Se você fizer uma pergunta ao chatbot, ele poderá chamar o mecanismo de busca Bing e fazer uma pesquisa na internet. Mas ele não tem como identificar a resposta correta. Ele pega os resultados dessa pesquisa na web e os resume para você.

Às vezes, esse resumo é muito falho. Alguns bots citam endereços da Internet que são totalmente inventados.

Resposta das empresas

Empresas como a OpenAI, o Google e a Microsoft desenvolveram maneiras de melhorar a precisão de suas tecnologias. A OpenAI, por exemplo, tenta refinar sua tecnologia com o feedback de testadores humanos, que avaliam as respostas do chatbot, separando as respostas úteis e verdadeiras daquelas que não são. Em seguida, usando uma técnica chamada aprendizado por reforço, o sistema passa semanas analisando as classificações para entender melhor o que é fato e o que é ficção.

Mas os pesquisadores alertam que a alucinação do chatbot não é um problema fácil de resolver. Como os chatbots aprendem com padrões nos dados e operam de acordo com probabilidades, eles se comportam de maneiras indesejadas pelo menos em parte do tempo.

Para determinar a frequência com que os chatbots alucinavam ao resumir artigos de notícias, os pesquisadores da Vectara usaram outro modelo de linguagem grande para verificar a precisão de cada resumo. Essa era a única maneira de verificar com eficiência um número tão grande de resumos.

Mas James Zou, professor de ciência da computação de Stanford, disse que esse método tem uma ressalva. O modelo de linguagem que faz a verificação também pode cometer erros.

“O detector de alucinação poderia ser enganado - ou alucinar a si mesmo”, disse ele. / TRADUÇÃO POR GUILHERME GUERRA

Tudo Sobre

Comentários

Os comentários são exclusivos para assinantes do Estadão.

Assine o Estadão Já sou assinante

ChatGPT pode alucinar mais do que se imagina

Taxa de ‘alucinação’ desses chatbots pode ir de 3% a 27%, segundo estudo da startup americana Vectara

Leia mais

Cuidado com chatbots

Resposta das empresas

Últimas: Cultura Digital

Não há salvação: toda rede social acaba virando terra arrasada; leia análise

Cinco pontos que explicam o pessimismo com a tecnologia

Modelos de IA têm opiniões e não estão dispostos a mudá-las; entenda

Testamos a Sora, IA da OpenAI que gera filmes curtos, e ela decepciona; veja vídeo

Quer trabalhar com tecnologia em 2025? Veja o que é necessário para ir além da programação

Mais lidas

Google Street View captura imagem de homem colocando saco em carro - e ajuda a resolver um crime

Pilares da IA dão sinais de esgotamento e colocam em xeque o futuro da tecnologia

Não cometa esses cinco erros que sabotam a internet da sua casa

‘IA pornô' está mudando o consumo de conteúdo adulto para sempre; entenda

Hotmail: cinco recursos ‘escondidos’ do e-mail que você precisa saber