THE NEW YORK TIMES - O chatbot que milhões de pessoas usam para escrever trabalhos de escola, código de computador e contos de fadas não se limita apenas a palavras. O ChatGPT, a ferramenta alimentada por inteligência artificial (IA) da OpenAI, também pode analisar imagens — descrevendo o que está nelas, respondendo perguntas sobre elas e até mesmo reconhecendo rostos de pessoas. A ideia é que, eventualmente, alguém possa fazer upload de uma foto do motor de um carro quebrado ou de uma erupção cutânea misteriosa e o ChatGPT possa sugerir a solução.
O que a OpenAI não quer é que o ChatGPT se torne é uma máquina de reconhecimento facial.
Nos últimos meses, Jonathan Mosen fez parte de um grupo selecionado de pessoas com acesso a uma versão avançada do chatbot que pode analisar imagens. Em uma viagem recente, Mosen, um CEO de agência de empregos que é cego, usou a análise visual para determinar quais dispensadores em um banheiro de hotel eram xampu, condicionador e gel de banho. Foi muito além do desempenho do software de análise de imagem que ele usou no passado.
“Ele me disse a capacidade em mililitros de cada frasco. Ele me contou sobre os azulejos no chuveiro”, disse Mosen. “Ele descreveu tudo isso de uma maneira que uma pessoa cega precisa ouvir. E com uma única foto, eu tive exatamente as respostas que precisava.”
Pela primeira vez, Mosen é capaz de “interrogar imagens”, disse ele. Ele deu um exemplo: a legenda de uma imagem que ele encontrou nas redes sociais a descreveu como “uma mulher com cabelos loiros parecendo feliz”. Quando ele pediu ao ChatGPT para analisar a imagem, o chatbot disse que era uma mulher com uma camisa azul escura, tirando uma selfie em um espelho de corpo inteiro. Ele poderia fazer outras perguntas, como que tipo de sapatos ela estava usando e o que mais era visível no reflexo do espelho.
“É extraordinário”, disse Mosen, que mora em Wellington, Nova Zelândia, e demonstrou a tecnologia em um podcast que ele apresenta sobre “viver cegamente”.
Em março, quando a OpenAI anunciou o GPT-4, o “cérebro” mais recente do ChatGPT, a empresa disse que era “multimodal”, o que significa que ele pode responder a comandos em texto e imagem. Enquanto a maioria dos usuários foi capaz de conversar com o bot apenas em palavras, Mosen teve acesso antecipado à análise visual por meio da Be My Eyes, startup que conecta usuários cegos a voluntários que enxergam. A Be My Eyes se uniu à OpenAI este ano para testar a “visão” do chatbot antes do lançamento do recurso para o público em geral.
Recentemente, o aplicativo parou de fornecer a Mosen informações sobre rostos de pessoas, dizendo que eles haviam sido omitidos por motivos de privacidade. Ele ficou desapontado, sentindo que deveria ter o mesmo acesso à informação que uma pessoa que enxerga.
A mudança refletiu a preocupação da OpenAI de que havia construído algo com um poder que não queria liberar.
A tecnologia da empresa pode identificar principalmente figuras públicas, como pessoas com uma página na Wikipedia, disse Sandhini Agarwal, pesquisadora de políticas da OpenAI, mas não funciona de maneira tão abrangente quanto as ferramentas construídas para encontrar rostos na internet, como as da Clearview AI e PimEyes. A ferramenta pode reconhecer o CEO da OpenAI, Sam Altman, em fotos, disse Agarwal, mas não outras pessoas que trabalham na empresa.
Perigos
Tornar tal recurso publicamente disponível ultrapassaria os limites do que geralmente é considerado prática aceitável pelas empresas de tecnologia dos EUA. Isso também poderia causar problemas legais em jurisdições, como Illinois e Europa, que exigem que as empresas obtenham o consentimento dos cidadãos para usar suas informações biométricas, incluindo uma impressão facial.
Além disso, a OpenAI teme que a ferramenta diga coisas que não deveria sobre os rostos das pessoas, como avaliar seu gênero ou estado emocional. A OpenAI está descobrindo como resolver essas e outras preocupações de segurança antes de liberar amplamente o recurso de análise de imagem, disse Agarwal.
“Queremos muito que isso seja uma conversa de mão dupla com o público”, disse ela. “Se o que ouvimos é tipo, ‘Na verdade, não queremos nada disso’, estamos totalmente de acordo.”
Além do feedback dos usuários da Be My Eyes, o braço sem fins lucrativos da empresa também está tentando encontrar maneiras de obter “input democrático” para ajudar a definir regras para sistemas de IA.
Agarwal disse que o desenvolvimento da análise visual não foi “inesperado”, porque o modelo foi treinado olhando para imagens e texto coletados da internet. Ela apontou que já existia software de reconhecimento facial de celebridades, como uma ferramenta do Google. O Google oferece uma opção de exclusão para pessoas conhecidas que não desejam ser reconhecidas, e a OpenAI está considerando essa abordagem.
Agarwal disse que a análise visual da OpenAI poderia produzir “alucinações” semelhantes ao que se viu com prompts de texto. “Se você der a ele uma foto de alguém à beira da fama, ele pode alucinar um nome”, disse ela. “Como se eu der a ele uma foto de um famoso CEO de tecnologia, ele pode me dar o nome de outro CEO de tecnologia.”
A ferramenta uma vez descreveu incorretamente um controle remoto para Mosen, dizendo-lhe confiantemente que havia botões nele que não estavam lá, disse ele.
A Microsoft, que investiu US$ 10 bilhões na OpenAI, também tem acesso à ferramenta de análise visual. Alguns usuários do chatbot Bing, alimentado por IA da Microsoft, viram o recurso aparecer em um lançamento limitado; após fazerem o upload de imagens, receberam uma mensagem informando que o “borrão de privacidade esconde rostos do chat Bing”.
Sayash Kapoor, cientista da computação e candidato ao doutorado na Universidade de Princeton, usou a ferramenta para decodificar um CAPTCHA, uma verificação de segurança visual destinada a ser inteligível apenas para olhos humanos. Mesmo ao quebrar o código e reconhecer as duas palavras fornecidas, o chatbot observou que “CAPTCHAs são projetados para impedir bots automatizados como eu de acessar certos sites ou serviços.”
“A IA está simplesmente varrendo todas as coisas que supostamente separam os humanos das máquinas”, disse Ethan Mollick, professor associado que estuda inovação e empreendedorismo na Wharton School da Universidade da Pensilvânia.
Desde que a ferramenta de análise visual apareceu repentinamente na versão do chatbot Bing de Mollick no mês passado — tornando-o, sem qualquer notificação, uma das poucas pessoas com acesso antecipado — ele não desligou seu computador por medo de perdê-la. Ele deu uma foto de condimentos em uma geladeira e pediu ao Bing para sugerir receitas para esses ingredientes. Ele sugeriu “refrigerante com chantilly” e um “molho cremoso de jalapeño”.
Tanto a OpenAI quanto a Microsoft parecem estar cientes do poder — e das possíveis implicações de privacidade — dessa tecnologia. Um porta-voz da Microsoft disse que a empresa não estava “compartilhando detalhes técnicos” sobre o embaçamento de rosto, mas estava trabalhando “de perto com nossos parceiros da OpenAI para cumprir nosso compromisso compartilhado com a implementação segura e responsável de tecnologias de IA.” /TRADUZIDO POR ALICE LABATE
Os comentários são exclusivos para assinantes do Estadão.