Chatbots inteligentes inventam respostas malucas e bizarras e isso pode não ter solução


Alucinações são comuns entre serviços de inteligência artificial e podem transmitir erros para usuários

Por Matt O'Brien

Passe tempo suficiente com ChatGPT e outros chatbots de inteligência artificial e não demora muito para eles começarem a dizer inverdades.

Descrito como alucinação, confabulação ou simplesmente inventando coisas, agora é um problema para todas as empresas, organizações e estudantes do ensino médio que tentam fazer um sistema de IA generativo para compor documentos e realizar trabalhos. Alguns estão usando isso em tarefas com potencial para consequências de alto risco, desde psicoterapia até pesquisa e redação de petições legais.

“Eu não acho que exista algum modelo hoje que não sofra de alguma alucinação”, disse Daniela Amodei, co-fundadora e presidente da Anthropic, criadora do chatbot Claude 2.

continua após a publicidade

“Eles são realmente apenas projetados para prever a próxima palavra”, disse Amodei. “E então haverá uma taxa em que o modelo faz isso de forma imprecisa.”

A Anthropic, a OpenAI (criadora do ChatGPT) e outros grandes desenvolvedores de sistemas de IA conhecidos como grandes modelos de linguagem (LLM, na sigla em inglês) dizem que estão trabalhando para torná-los mais verdadeiros.

Quanto tempo isso vai levar - e se eles serão bons o suficiente para, digamos, fornecer conselhos médicos de forma segura - ainda está por ser visto.

continua após a publicidade

“Isso não é consertável”, disse Emily Bender, professora de linguística e diretora do Laboratório de Linguística Computacional da Universidade de Washington. “É inerente à incompatibilidade entre a tecnologia e os casos de uso propostos.”

Muito depende da confiabilidade da tecnologia de IA generativa. O Instituto Global McKinsey projeta que ele adicionará o equivalente a US$ 2,6 trilhões a US$ 4,4 trilhões à economia global. Os chatbots são apenas uma parte dessa frenesi, que também inclui tecnologia que pode gerar novas imagens, vídeos, músicas e códigos de computador. Quase todas as ferramentas incluem algum componente de linguagem.

O Google já está oferecendo um produto de IA para escrita de notícias para organizações de notícias, para as quais a precisão é primordial. A Associated Press também está explorando o uso da tecnologia como parte de uma parceria com a OpenAI, que está pagando para usar parte do arquivo de texto da AP para melhorar seus sistemas de IA.

continua após a publicidade

Em parceria com os institutos de gestão hoteleira da Índia, o cientista da computação Ganesh Bagler vem trabalhando há anos para fazer com que os sistemas de IA, incluindo um precursor do ChatGPT, inventem receitas para as culinárias sul-asiáticas, como novas versões de biryani à base de arroz. Um único ingrediente “alucinado” pode ser a diferença entre uma refeição saborosa e intragável.

Quando Sam Altman, o CEO da OpenAI, visitou a Índia em junho, o professor do Instituto Indraprastha de Tecnologia da Informação de Delhi fez algumas perguntas pontuais.

“Acho que alucinações no ChatGPT ainda são aceitáveis, mas quando uma receita sai alucinada, isso se torna um problema sério”, disse Bagler, levantando-se em um auditório lotado do campus para se dirigir a Altman na parada de Nova Delhi da turnê mundial do executivo de tecnologia dos EUA.

continua após a publicidade

“Qual é a sua opinião sobre isso?”, Bagler finalmente perguntou.

Altman expressou otimismo, se não um compromisso absoluto.

“Acho que vamos resolver o problema da alucinação para um lugar muito, muito melhor”, disse Altman. “Acho que vai levar um ano e meio, dois anos. Algo assim. Mas naquele ponto, ainda não falaremos sobre esses. Há um equilíbrio entre criatividade e precisão perfeita, e o modelo precisará aprender quando você quer um ou outro.”

continua após a publicidade

Mas para alguns especialistas que estudaram a tecnologia, como a linguista da Universidade de Washington Bender, essas melhorias não serão suficientes.

Bender descreve um modelo de linguagem como um sistema para “modelar a probabilidade de diferentes sequências de formas de palavras”, dada alguns dados escritos em que foi treinado.

É assim que os corretores ortográficos conseguem detectar quando você digitou a palavra errada. Também ajuda a alimentar serviços automáticos de tradução e transcrição, “alisando a saída para parecer mais com texto típico na língua-alvo”, disse Bender. Muitas pessoas dependem de uma versão dessa tecnologia sempre que usam o recurso “autocompletar” ao compor mensagens de texto ou e-mails.

continua após a publicidade

A última safra de chatbots como ChatGPT, Claude 2 ou o Bard, do Google, tenta levar isso para o próximo nível, gerando passagens inteiramente novas de texto, mas Bender disse que eles ainda estão apenas selecionando repetidamente a próxima palavra mais plausível em uma sequência.

Quando usados para gerar texto, modelos de linguagem “são projetados para inventar coisas. Isso é tudo o que eles fazem”, disse Bender. Eles são bons em imitar formas de escrita, como contratos legais, roteiros de televisão ou sonetos.

“Mas como eles só inventam coisas, quando o texto que eles extraem acontece de ser interpretável como algo que consideramos correto, isso é por acaso”, disse Bender. “Mesmo que possam ser ajustados para estarem certos na maior parte do tempo, eles ainda terão modos de falha - e provavelmente as falhas serão nos casos em que é mais difícil para uma pessoa que está lendo o texto notar, porque são mais obscuras.”

‘Bônus adicional’

Esses erros não são um grande problema para as empresas de marketing que têm recorrido à Jasper AI para ajudar a escrever argumentos de venda, disse o presidente da empresa, Shane Orlick.

“Alucinações são na verdade um bônus adicional”, disse Orlick. “Temos clientes o tempo todo que nos dizem como ele inventou ideias - como Jasper criou abordagens de histórias ou ângulos que eles nunca teriam pensado sozinhos.”

A startup baseada no Texas trabalha com parceiros como OpenAI, Anthropic, Google ou Meta, controladora do Facebook, para oferecer aos seus clientes uma variedade de modelos de linguagem de IA adaptados às suas necessidades. Para alguém preocupado com a precisão, ele pode oferecer o modelo da Anthropic, enquanto alguém preocupado com a segurança de seus dados de origem proprietários pode obter um modelo diferente, disse Orlick.

Orlick disse que sabe que as alucinações não serão facilmente corrigidas. Ele está contando com empresas como o Google, que ele diz ter um “padrão realmente alto de conteúdo factual” para seu mecanismo de busca, para investir muita energia e recursos em soluções.

“Acho que eles têm que resolver esse problema”, disse Orlick. “Eles têm que enfrentar isso. Então, eu não sei se vai ser perfeito, mas provavelmente vai continuar a melhorar cada vez mais com o tempo.”

Os tecno-otimistas, incluindo o cofundador da Microsoft, Bill Gates, têm previsto uma perspectiva otimista.

“Estou otimista de que, com o tempo, os modelos de IA podem ser ensinados a distinguir fatos de ficção”, disse Gates em um post de blog em julho detalhando seus pensamentos sobre os riscos sociais da IA.

Ele citou um artigo de 2022 da OpenAI como um exemplo de “trabalho promissor nessa frente”. Mais recentemente, pesquisadores do Instituto Federal Suíço de Tecnologia em Zurique disseram que desenvolveram um método para detectar algum, mas não todo, conteúdo alucinado do ChatGPT e removê-lo automaticamente.

Mas até mesmo Altman, enquanto comercializa os produtos para uma variedade de usos, não conta com os modelos para serem verdadeiros quando está procurando informações.

“Eu provavelmente confio menos nas respostas que saem do ChatGPT do que qualquer pessoa na Terra”, disse Altman à plateia na universidade de Bagler, provocando risos.

Passe tempo suficiente com ChatGPT e outros chatbots de inteligência artificial e não demora muito para eles começarem a dizer inverdades.

Descrito como alucinação, confabulação ou simplesmente inventando coisas, agora é um problema para todas as empresas, organizações e estudantes do ensino médio que tentam fazer um sistema de IA generativo para compor documentos e realizar trabalhos. Alguns estão usando isso em tarefas com potencial para consequências de alto risco, desde psicoterapia até pesquisa e redação de petições legais.

“Eu não acho que exista algum modelo hoje que não sofra de alguma alucinação”, disse Daniela Amodei, co-fundadora e presidente da Anthropic, criadora do chatbot Claude 2.

“Eles são realmente apenas projetados para prever a próxima palavra”, disse Amodei. “E então haverá uma taxa em que o modelo faz isso de forma imprecisa.”

A Anthropic, a OpenAI (criadora do ChatGPT) e outros grandes desenvolvedores de sistemas de IA conhecidos como grandes modelos de linguagem (LLM, na sigla em inglês) dizem que estão trabalhando para torná-los mais verdadeiros.

Quanto tempo isso vai levar - e se eles serão bons o suficiente para, digamos, fornecer conselhos médicos de forma segura - ainda está por ser visto.

“Isso não é consertável”, disse Emily Bender, professora de linguística e diretora do Laboratório de Linguística Computacional da Universidade de Washington. “É inerente à incompatibilidade entre a tecnologia e os casos de uso propostos.”

Muito depende da confiabilidade da tecnologia de IA generativa. O Instituto Global McKinsey projeta que ele adicionará o equivalente a US$ 2,6 trilhões a US$ 4,4 trilhões à economia global. Os chatbots são apenas uma parte dessa frenesi, que também inclui tecnologia que pode gerar novas imagens, vídeos, músicas e códigos de computador. Quase todas as ferramentas incluem algum componente de linguagem.

O Google já está oferecendo um produto de IA para escrita de notícias para organizações de notícias, para as quais a precisão é primordial. A Associated Press também está explorando o uso da tecnologia como parte de uma parceria com a OpenAI, que está pagando para usar parte do arquivo de texto da AP para melhorar seus sistemas de IA.

Em parceria com os institutos de gestão hoteleira da Índia, o cientista da computação Ganesh Bagler vem trabalhando há anos para fazer com que os sistemas de IA, incluindo um precursor do ChatGPT, inventem receitas para as culinárias sul-asiáticas, como novas versões de biryani à base de arroz. Um único ingrediente “alucinado” pode ser a diferença entre uma refeição saborosa e intragável.

Quando Sam Altman, o CEO da OpenAI, visitou a Índia em junho, o professor do Instituto Indraprastha de Tecnologia da Informação de Delhi fez algumas perguntas pontuais.

“Acho que alucinações no ChatGPT ainda são aceitáveis, mas quando uma receita sai alucinada, isso se torna um problema sério”, disse Bagler, levantando-se em um auditório lotado do campus para se dirigir a Altman na parada de Nova Delhi da turnê mundial do executivo de tecnologia dos EUA.

“Qual é a sua opinião sobre isso?”, Bagler finalmente perguntou.

Altman expressou otimismo, se não um compromisso absoluto.

“Acho que vamos resolver o problema da alucinação para um lugar muito, muito melhor”, disse Altman. “Acho que vai levar um ano e meio, dois anos. Algo assim. Mas naquele ponto, ainda não falaremos sobre esses. Há um equilíbrio entre criatividade e precisão perfeita, e o modelo precisará aprender quando você quer um ou outro.”

Mas para alguns especialistas que estudaram a tecnologia, como a linguista da Universidade de Washington Bender, essas melhorias não serão suficientes.

Bender descreve um modelo de linguagem como um sistema para “modelar a probabilidade de diferentes sequências de formas de palavras”, dada alguns dados escritos em que foi treinado.

É assim que os corretores ortográficos conseguem detectar quando você digitou a palavra errada. Também ajuda a alimentar serviços automáticos de tradução e transcrição, “alisando a saída para parecer mais com texto típico na língua-alvo”, disse Bender. Muitas pessoas dependem de uma versão dessa tecnologia sempre que usam o recurso “autocompletar” ao compor mensagens de texto ou e-mails.

A última safra de chatbots como ChatGPT, Claude 2 ou o Bard, do Google, tenta levar isso para o próximo nível, gerando passagens inteiramente novas de texto, mas Bender disse que eles ainda estão apenas selecionando repetidamente a próxima palavra mais plausível em uma sequência.

Quando usados para gerar texto, modelos de linguagem “são projetados para inventar coisas. Isso é tudo o que eles fazem”, disse Bender. Eles são bons em imitar formas de escrita, como contratos legais, roteiros de televisão ou sonetos.

“Mas como eles só inventam coisas, quando o texto que eles extraem acontece de ser interpretável como algo que consideramos correto, isso é por acaso”, disse Bender. “Mesmo que possam ser ajustados para estarem certos na maior parte do tempo, eles ainda terão modos de falha - e provavelmente as falhas serão nos casos em que é mais difícil para uma pessoa que está lendo o texto notar, porque são mais obscuras.”

‘Bônus adicional’

Esses erros não são um grande problema para as empresas de marketing que têm recorrido à Jasper AI para ajudar a escrever argumentos de venda, disse o presidente da empresa, Shane Orlick.

“Alucinações são na verdade um bônus adicional”, disse Orlick. “Temos clientes o tempo todo que nos dizem como ele inventou ideias - como Jasper criou abordagens de histórias ou ângulos que eles nunca teriam pensado sozinhos.”

A startup baseada no Texas trabalha com parceiros como OpenAI, Anthropic, Google ou Meta, controladora do Facebook, para oferecer aos seus clientes uma variedade de modelos de linguagem de IA adaptados às suas necessidades. Para alguém preocupado com a precisão, ele pode oferecer o modelo da Anthropic, enquanto alguém preocupado com a segurança de seus dados de origem proprietários pode obter um modelo diferente, disse Orlick.

Orlick disse que sabe que as alucinações não serão facilmente corrigidas. Ele está contando com empresas como o Google, que ele diz ter um “padrão realmente alto de conteúdo factual” para seu mecanismo de busca, para investir muita energia e recursos em soluções.

“Acho que eles têm que resolver esse problema”, disse Orlick. “Eles têm que enfrentar isso. Então, eu não sei se vai ser perfeito, mas provavelmente vai continuar a melhorar cada vez mais com o tempo.”

Os tecno-otimistas, incluindo o cofundador da Microsoft, Bill Gates, têm previsto uma perspectiva otimista.

“Estou otimista de que, com o tempo, os modelos de IA podem ser ensinados a distinguir fatos de ficção”, disse Gates em um post de blog em julho detalhando seus pensamentos sobre os riscos sociais da IA.

Ele citou um artigo de 2022 da OpenAI como um exemplo de “trabalho promissor nessa frente”. Mais recentemente, pesquisadores do Instituto Federal Suíço de Tecnologia em Zurique disseram que desenvolveram um método para detectar algum, mas não todo, conteúdo alucinado do ChatGPT e removê-lo automaticamente.

Mas até mesmo Altman, enquanto comercializa os produtos para uma variedade de usos, não conta com os modelos para serem verdadeiros quando está procurando informações.

“Eu provavelmente confio menos nas respostas que saem do ChatGPT do que qualquer pessoa na Terra”, disse Altman à plateia na universidade de Bagler, provocando risos.

Passe tempo suficiente com ChatGPT e outros chatbots de inteligência artificial e não demora muito para eles começarem a dizer inverdades.

Descrito como alucinação, confabulação ou simplesmente inventando coisas, agora é um problema para todas as empresas, organizações e estudantes do ensino médio que tentam fazer um sistema de IA generativo para compor documentos e realizar trabalhos. Alguns estão usando isso em tarefas com potencial para consequências de alto risco, desde psicoterapia até pesquisa e redação de petições legais.

“Eu não acho que exista algum modelo hoje que não sofra de alguma alucinação”, disse Daniela Amodei, co-fundadora e presidente da Anthropic, criadora do chatbot Claude 2.

“Eles são realmente apenas projetados para prever a próxima palavra”, disse Amodei. “E então haverá uma taxa em que o modelo faz isso de forma imprecisa.”

A Anthropic, a OpenAI (criadora do ChatGPT) e outros grandes desenvolvedores de sistemas de IA conhecidos como grandes modelos de linguagem (LLM, na sigla em inglês) dizem que estão trabalhando para torná-los mais verdadeiros.

Quanto tempo isso vai levar - e se eles serão bons o suficiente para, digamos, fornecer conselhos médicos de forma segura - ainda está por ser visto.

“Isso não é consertável”, disse Emily Bender, professora de linguística e diretora do Laboratório de Linguística Computacional da Universidade de Washington. “É inerente à incompatibilidade entre a tecnologia e os casos de uso propostos.”

Muito depende da confiabilidade da tecnologia de IA generativa. O Instituto Global McKinsey projeta que ele adicionará o equivalente a US$ 2,6 trilhões a US$ 4,4 trilhões à economia global. Os chatbots são apenas uma parte dessa frenesi, que também inclui tecnologia que pode gerar novas imagens, vídeos, músicas e códigos de computador. Quase todas as ferramentas incluem algum componente de linguagem.

O Google já está oferecendo um produto de IA para escrita de notícias para organizações de notícias, para as quais a precisão é primordial. A Associated Press também está explorando o uso da tecnologia como parte de uma parceria com a OpenAI, que está pagando para usar parte do arquivo de texto da AP para melhorar seus sistemas de IA.

Em parceria com os institutos de gestão hoteleira da Índia, o cientista da computação Ganesh Bagler vem trabalhando há anos para fazer com que os sistemas de IA, incluindo um precursor do ChatGPT, inventem receitas para as culinárias sul-asiáticas, como novas versões de biryani à base de arroz. Um único ingrediente “alucinado” pode ser a diferença entre uma refeição saborosa e intragável.

Quando Sam Altman, o CEO da OpenAI, visitou a Índia em junho, o professor do Instituto Indraprastha de Tecnologia da Informação de Delhi fez algumas perguntas pontuais.

“Acho que alucinações no ChatGPT ainda são aceitáveis, mas quando uma receita sai alucinada, isso se torna um problema sério”, disse Bagler, levantando-se em um auditório lotado do campus para se dirigir a Altman na parada de Nova Delhi da turnê mundial do executivo de tecnologia dos EUA.

“Qual é a sua opinião sobre isso?”, Bagler finalmente perguntou.

Altman expressou otimismo, se não um compromisso absoluto.

“Acho que vamos resolver o problema da alucinação para um lugar muito, muito melhor”, disse Altman. “Acho que vai levar um ano e meio, dois anos. Algo assim. Mas naquele ponto, ainda não falaremos sobre esses. Há um equilíbrio entre criatividade e precisão perfeita, e o modelo precisará aprender quando você quer um ou outro.”

Mas para alguns especialistas que estudaram a tecnologia, como a linguista da Universidade de Washington Bender, essas melhorias não serão suficientes.

Bender descreve um modelo de linguagem como um sistema para “modelar a probabilidade de diferentes sequências de formas de palavras”, dada alguns dados escritos em que foi treinado.

É assim que os corretores ortográficos conseguem detectar quando você digitou a palavra errada. Também ajuda a alimentar serviços automáticos de tradução e transcrição, “alisando a saída para parecer mais com texto típico na língua-alvo”, disse Bender. Muitas pessoas dependem de uma versão dessa tecnologia sempre que usam o recurso “autocompletar” ao compor mensagens de texto ou e-mails.

A última safra de chatbots como ChatGPT, Claude 2 ou o Bard, do Google, tenta levar isso para o próximo nível, gerando passagens inteiramente novas de texto, mas Bender disse que eles ainda estão apenas selecionando repetidamente a próxima palavra mais plausível em uma sequência.

Quando usados para gerar texto, modelos de linguagem “são projetados para inventar coisas. Isso é tudo o que eles fazem”, disse Bender. Eles são bons em imitar formas de escrita, como contratos legais, roteiros de televisão ou sonetos.

“Mas como eles só inventam coisas, quando o texto que eles extraem acontece de ser interpretável como algo que consideramos correto, isso é por acaso”, disse Bender. “Mesmo que possam ser ajustados para estarem certos na maior parte do tempo, eles ainda terão modos de falha - e provavelmente as falhas serão nos casos em que é mais difícil para uma pessoa que está lendo o texto notar, porque são mais obscuras.”

‘Bônus adicional’

Esses erros não são um grande problema para as empresas de marketing que têm recorrido à Jasper AI para ajudar a escrever argumentos de venda, disse o presidente da empresa, Shane Orlick.

“Alucinações são na verdade um bônus adicional”, disse Orlick. “Temos clientes o tempo todo que nos dizem como ele inventou ideias - como Jasper criou abordagens de histórias ou ângulos que eles nunca teriam pensado sozinhos.”

A startup baseada no Texas trabalha com parceiros como OpenAI, Anthropic, Google ou Meta, controladora do Facebook, para oferecer aos seus clientes uma variedade de modelos de linguagem de IA adaptados às suas necessidades. Para alguém preocupado com a precisão, ele pode oferecer o modelo da Anthropic, enquanto alguém preocupado com a segurança de seus dados de origem proprietários pode obter um modelo diferente, disse Orlick.

Orlick disse que sabe que as alucinações não serão facilmente corrigidas. Ele está contando com empresas como o Google, que ele diz ter um “padrão realmente alto de conteúdo factual” para seu mecanismo de busca, para investir muita energia e recursos em soluções.

“Acho que eles têm que resolver esse problema”, disse Orlick. “Eles têm que enfrentar isso. Então, eu não sei se vai ser perfeito, mas provavelmente vai continuar a melhorar cada vez mais com o tempo.”

Os tecno-otimistas, incluindo o cofundador da Microsoft, Bill Gates, têm previsto uma perspectiva otimista.

“Estou otimista de que, com o tempo, os modelos de IA podem ser ensinados a distinguir fatos de ficção”, disse Gates em um post de blog em julho detalhando seus pensamentos sobre os riscos sociais da IA.

Ele citou um artigo de 2022 da OpenAI como um exemplo de “trabalho promissor nessa frente”. Mais recentemente, pesquisadores do Instituto Federal Suíço de Tecnologia em Zurique disseram que desenvolveram um método para detectar algum, mas não todo, conteúdo alucinado do ChatGPT e removê-lo automaticamente.

Mas até mesmo Altman, enquanto comercializa os produtos para uma variedade de usos, não conta com os modelos para serem verdadeiros quando está procurando informações.

“Eu provavelmente confio menos nas respostas que saem do ChatGPT do que qualquer pessoa na Terra”, disse Altman à plateia na universidade de Bagler, provocando risos.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.