Por que a inteligência artificial tem tanta dificuldade em desenhar mãos e dedos?

Pedir para um modelo de linguagem gerar uma imagem simples, como uma mão segurando um copo, geralmente resulta em escassez ou excesso de dedos

PUBLICIDADE

Foto do author Isabel Gomes

Se você pedir para uma ferramenta de inteligência artificial criar a imagem de um cavalo tomando chá com um cachorro, ela fará isso de forma inquestionável. O mesmo vale para um urso de pelúcia andando de skate na Times Square. Mas pedir o retrato de uma simples mão humana é um desafio gigantesco para as máquinas. O resultado pode ser uma mãos com quatro, seis ou até oito dedos. Ou então, a mão será “fundida” com qualquer objeto próximo.

Essa limitação dos geradores de imagem virou piada e até um traço notável da tecnologia - muitas vezes, é justamente o que desmascara conteúdos falsos. Na famosa foto inverídica do Papa Francisco usando uma jaqueta puffer, por exemplo, os dedos do líder católico foram uma das primeiras provas apontadas sobre a inautenticidade da imagem — ele segurava um copo de café, mas seus dedos pareciam amassados, e as mãos pareciam ser mais joviais do que as de um idoso de 87 anos. Mas, afinal, porque a IA não consegue desenhar mãos?

Apesar das frequentes atualizações, o desenho de mãos segue sendo um obstáculo para as ferramentas de IA. Foto: Imagem gerada por IA/DALL-E/Canva

Também é difícil para humanos

Embora pequena, a mão é uma das regiões do corpo com maior número de ossos. São 27 ao total que, juntos, permitem mais de 20 articulações. Tudo isso com uma rica quantidade de detalhes, que envolvem unhas, cutículas, veias, linhas, vincos e mais. Não à toa, é um dos desenhos anatômicos mais desafiadores inclusive para artistas, não só para a IA.

Para além dos detalhes, as mãos podem assumir uma quantidade infinita de poses e gestos. Podem estar segurando algo, podem estar parcialmente em um bolso. Podem ter dedos esticados, parcialmente dobrados ou fechados em punho. Em suma, essa grande quantidade de informações sobre uma única parte do corpo cria vários obstáculos para que elas sejam desenhadas de forma realista.

Publicidade

“Por que ele acerta dois braços e não acerta cinco dedos? Porque as posições anatômicas dos dedos são muito mais complexas do que as do braço. Então, às vezes, ele se confunde com essas imensas composições possíveis nos nossos dedos e a interação entre os próprios dedos”, explica Alexandre Chiavegatto, professor de inteligência artificial na Faculdade de Saúde Pública da USP e colunista do Estadão.

Elas não costumam ser o foco de treinamentos

Mãos são pequenas e, na maior parte das imagens reais, elas não são o destaque das imagens. Por vezes, estão escondidas atrás de uma perna ou em um bolso. Ou podem ser ofuscadas pela iluminação, por um objeto que está sendo segurado ou até mesmo por luvas. Assim, as representações nítidas de mãos em diversas poses acabam sendo minoria no conjunto de dados de treinamento dos modelos de IA. E os conjuntos incompletos geram resultados insatisfatórios.

Não é coincidência, portanto, que outros desenhos anatômicos que não aparecem tanto quanto um rosto ou o cabelo, por exemplo, também saiam meio esquisitos em imagens geradas. Orelhas, dedos dos pés e até mesmo dentes do canto da boca podem ser fatores destoantes da realidade em imagens geradas artificialmente.

“Modelos de linguagem não têm uma visão de mundo embutida neles. Eles aprendem via dados. No caso de modelos de imagem, aprendem via pixels das imagens. E, em princípio, ninguém inseriu no algoritmo o fato de que uma mão tem cinco dedos”, pontua Chiavegatto.

Publicidade

Além disso, as ferramentas “estudam” em bancos de imagens bidimensionais. Não sabem reconhecer, portanto, as diversas posições que uma mão e seus cinco dedos conseguem assumir em um mundo tridimensional. E isso, como consequência, torna muito mais limitada a sua reprodução fidedigna.

Ferramentas estão tentando melhorar

As companhias por trás dos modelos de linguagem estão ciente do problema, e em alguns casos melhorias já foram divulgadas. Em 2023, o Midjourney, um conhecido criador de imagens, lançou uma atualização que amenizou o problema, mas criou outro: o software aprimorado foi utilizado para gerar imagens falsas do ex-presidente Trump sendo preso.

Por esse lado, portanto, alguns especialistas comemoram a persistência do ato falho na maioria dos modelos de linguagem, já que ainda pode dar pistas sobre conteúdos deepfake criados com intuitos políticos ou mal intencionados. No entanto, o prazo para dedos extras ou mãos deformadas é possivelmente curto, já que é improvável, ou impossível, de forma mais realista, que as empresas pausem ou diminuam o ritmo de aprimoramento de seus modelos.

Comentários

Os comentários são exclusivos para assinantes do Estadão.