THE WASHINGTON POST - Os geradores de imagens de inteligência artificial (IA), que criam imagens com base em instruções escritas, cresceram vertiginosamente em popularidade e desempenho. No entanto, a tecnologia tem uma grande falha: criar mãos humanas realistas. Os conjuntos de dados usados para treinar a IA costumam capturar apenas pedaços das mãos. Isso muitas vezes resulta em fotos de mãos inchadas com dedos demais ou pulsos esticados – um sinal que indica que a imagem gerada por IA é falsa.
Mas em meados de março, o Midjourney, um conhecido criador de imagens, lançou uma atualização de software que parecia corrigir o problema, com artistas relatando que a ferramenta agora cria imagens com mãos impecáveis. Esse aperfeiçoamento vem com um grande problema: o software aprimorado da empresa foi utilizado recentemente para produzir imagens falsas do ex-presidente Trump sendo preso, que pareciam reais e viralizaram, comprovando o potencial nefasto dessa tecnologia.
A atualização aparentemente inofensiva é um trunfo para os designers gráficos que dependem de criadores de imagens de IA para a arte realista. Entretanto, provoca um grande debate a respeito do perigo do conteúdo gerado que é indistinguível das imagens autênticas. Alguns dizem que essa IA hiper-realista tirará o trabalho dos artistas. Outros, que as imagens impecáveis vão tornar as campanhas com uso de deepfakes mais plausíveis, sem dar pistas evidentes de que se trata de uma imagem fabricada.
“Antes de todos esses detalhes serem possíveis, alguém daria uma olhada e diria: ‘Ok, há sete dedos aqui ou três dedos ali – isso provavelmente é falso’”, disse Hany Farid, professor de forense digital da Universidade da Califórnia em Berkeley. “Mas conforme a tecnologia começa a oferecer todos esses detalhes, as pistas visuais se tornam menos evidentes.”
Como nasceram os geradores de imagem
No ano passado, houve uma explosão de geradores de imagem a partir de texto em meio ao maior crescimento da IA generativa, que está por trás dos softwares que criam textos, imagens ou sons com base em dados com os quais são alimentados.
O popular Dall-E 2, criado pela OpenAI (dona do ChatGPT), deixou a internet perplexa quando foi lançado em julho do ano passado. Em agosto, a startup Stable Diffusion lançou sua própria versão, basicamente um anti-DALL-E, com menos restrições de como poderia ser usado. Já o laboratório de pesquisa Midjourney lançou sua versão da tecnologia mais ou menos na mesma época - e ganhou de “polêmica” quando venceu uma competição de arte numa feira estadual no Colorado (EUA).
Esses criadores de imagens são alimentados por bilhões de imagens extraídas da internet e reconhecendo padrões entre as fotos e as palavras em textos que as acompanham. Por exemplo, o software aprende que quando alguém digita “coelhinho”, a palavra está associada com a imagem do animal peludo e vomita isso.
Mas recriar as mãos continuava sendo uma questão complicada para o software, disse Amelia Winger-Bearskin, professora de IA e de artes da Universidade da Flórida.
Por que a IA desenhava mal as mãos?
Os sistemas de IA generativa ainda não conseguiram compreender totalmente o que a palavra “mão” significa, disse ela, tornando difícil reproduzir a parte do corpo. Existem mãos em diversos formatos e tamanhos e as imagens nos conjunto de dados de treinamento costumam focar nos rostos, disse ela. Se as mãos são retratadas, com frequência estão com os dedos entrelaçados ou gesticulando, oferecendo uma visão modificada da parte do corpo.
“Se cada imagem de uma pessoa fosse sempre assim”, disse ela, estendendo completamente todos os dedos das mãos durante a entrevista em vídeo via Zoom, “provavelmente seríamos capazes de reproduzir as mãos muito bem”.
A atualização do Midjourney em março parece ter reduzido consideravelmente o problema, segundo Amelia, apesar de ela reconhecer que a nova versão não é perfeita. “Ainda tivemos alguns resultados muito estranhos”, disse ela. A Midjourney não respondeu um pedido de comentário para tentar entender melhor a atualização de seu software.
Riscos
Farid, da UC Berkeley, disse que a capacidade do Midjourney de produzir imagens melhores cria riscos políticos porque ele poderia fabricar imagens que parecem mais plausíveis e suscitar a ira da sociedade. Ele chamou a atenção para as imagens criadas pela ferramenta recentemente que pareciam mostrar de forma convincentes Trump sendo preso, mesmo isso não tendo acontecido. Farid observou que os detalhes, como o comprimento da gravata de Trump e suas mãos, estavam melhorando, tornando a imagem mais crível.
“É fácil fazer as pessoas acreditarem nessas coisas”, disse ele. “E, então, quando não há erros visuais, fica ainda mais fácil.”
Há pouco tempo, disse Farid, identificar mãos criadas com pouca qualidade era uma maneira confiável para saber se uma imagem tinha sido fabricada com uso de deepfake. Isso está se tornando mais difícil de se fazer, afirmou, devido à melhora na qualidade. Mas ainda há pistas, disse ele, frequentemente no fundo de uma foto, como um galho de árvore disforme.
Farid disse que as empresas de IA devem pensar em termos mais gerais a respeito dos danos para os quais podem contribuir melhorando sua tecnologia. Segundo ele, elas podem incorporar proteções, proibindo algumas palavras de serem recriadas (o que o Dall E-2 faz, ele disse), adicionando marcas d’água à imagem e impedindo que contas anônimas criem fotos.
No entanto, de acordo com Farid, é pouco provável que as empresas de IA pisem no freio nas melhorias de seus criadores de imagem.
“Há uma corrida armamentista na área de IA generativa”, disse ele. “Todos querem descobrir como monetizar e estão avançando rapidamente, e a segurança diminui a velocidade.” /TRADUÇÃO DE ROMINA CÁCIA
Os comentários são exclusivos para assinantes do Estadão.