Por que a inteligência artificial tem tanta dificuldade em desenhar mãos e dedos?

Se você pedir para uma ferramenta de inteligência artificial criar a imagem de um cavalo tomando chá com um cachorro, ela fará isso de forma inquestionável. O mesmo vale para um urso de pelúcia andando de skate na Times Square. Mas pedir o retrato de uma simples mão humana é um desafio gigantesco para as máquinas. O resultado pode ser uma mãos com quatro, seis ou até oito dedos. Ou então, a mão será “fundida” com qualquer objeto próximo.

Essa limitação dos geradores de imagem virou piada e até um traço notável da tecnologia - muitas vezes, é justamente o que desmascara conteúdos falsos. Na famosa foto inverídica do Papa Francisco usando uma jaqueta puffer, por exemplo, os dedos do líder católico foram uma das primeiras provas apontadas sobre a inautenticidade da imagem — ele segurava um copo de café, mas seus dedos pareciam amassados, e as mãos pareciam ser mais joviais do que as de um idoso de 87 anos. Mas, afinal, porque a IA não consegue desenhar mãos?

Apesar das frequentes atualizações, o desenho de mãos segue sendo um obstáculo para as ferramentas de IA. Foto: Imagem gerada por IA/DALL-E/Canva

continua após a publicidade

Também é difícil para humanos

Embora pequena, a mão é uma das regiões do corpo com maior número de ossos. São 27 ao total que, juntos, permitem mais de 20 articulações. Tudo isso com uma rica quantidade de detalhes, que envolvem unhas, cutículas, veias, linhas, vincos e mais. Não à toa, é um dos desenhos anatômicos mais desafiadores inclusive para artistas, não só para a IA.

Elas não costumam ser o foco de treinamentos

Mãos são pequenas e, na maior parte das imagens reais, elas não são o destaque das imagens. Por vezes, estão escondidas atrás de uma perna ou em um bolso. Ou podem ser ofuscadas pela iluminação, por um objeto que está sendo segurado ou até mesmo por luvas. Assim, as representações nítidas de mãos em diversas poses acabam sendo minoria no conjunto de dados de treinamento dos modelos de IA. E os conjuntos incompletos geram resultados insatisfatórios.

Não é coincidência, portanto, que outros desenhos anatômicos que não aparecem tanto quanto um rosto ou o cabelo, por exemplo, também saiam meio esquisitos em imagens geradas. Orelhas, dedos dos pés e até mesmo dentes do canto da boca podem ser fatores destoantes da realidade em imagens geradas artificialmente.

continua após a publicidade

“Modelos de linguagem não têm uma visão de mundo embutida neles. Eles aprendem via dados. No caso de modelos de imagem, aprendem via pixels das imagens. E, em princípio, ninguém inseriu no algoritmo o fato de que uma mão tem cinco dedos”, pontua Chiavegatto.

Além disso, as ferramentas “estudam” em bancos de imagens bidimensionais. Não sabem reconhecer, portanto, as diversas posições que uma mão e seus cinco dedos conseguem assumir em um mundo tridimensional. E isso, como consequência, torna muito mais limitada a sua reprodução fidedigna.

continua após a publicidade

Ferramentas estão tentando melhorar

As companhias por trás dos modelos de linguagem estão ciente do problema, e em alguns casos melhorias já foram divulgadas. Em 2023, o Midjourney, um conhecido criador de imagens, lançou uma atualização que amenizou o problema, mas criou outro: o software aprimorado foi utilizado para gerar imagens falsas do ex-presidente Trump sendo preso.

Por esse lado, portanto, alguns especialistas comemoram a persistência do ato falho na maioria dos modelos de linguagem, já que ainda pode dar pistas sobre conteúdos deepfake criados com intuitos políticos ou mal intencionados. No entanto, o prazo para dedos extras ou mãos deformadas é possivelmente curto, já que é improvável, ou impossível, de forma mais realista, que as empresas pausem ou diminuam o ritmo de aprimoramento de seus modelos.

Apesar das frequentes atualizações, o desenho de mãos segue sendo um obstáculo para as ferramentas de IA. Foto: Imagem gerada por IA/DALL-E/Canva

Por que a inteligência artificial tem tanta dificuldade em desenhar mãos e dedos?

Pedir para um modelo de linguagem gerar uma imagem simples, como uma mão segurando um copo, geralmente resulta em escassez ou excesso de dedos

Também é difícil para humanos

Leia Também:

Elas não costumam ser o foco de treinamentos

Ferramentas estão tentando melhorar

Também é difícil para humanos

Leia Também:

Elas não costumam ser o foco de treinamentos

Ferramentas estão tentando melhorar

Também é difícil para humanos

Leia Também:

Elas não costumam ser o foco de treinamentos

Ferramentas estão tentando melhorar

Por que a inteligência artificial tem tanta dificuldade em desenhar mãos e dedos?

Pedir para um modelo de linguagem gerar uma imagem simples, como uma mão segurando um copo, geralmente resulta em escassez ou excesso de dedos

Também é difícil para humanos

Leia Também:

Elas não costumam ser o foco de treinamentos

Ferramentas estão tentando melhorar

Também é difícil para humanos

Leia Também:

Elas não costumam ser o foco de treinamentos

Ferramentas estão tentando melhorar

Também é difícil para humanos

Leia Também:

Elas não costumam ser o foco de treinamentos

Ferramentas estão tentando melhorar

Atualizamos nossa política de cookies