IAs estão sendo treinadas com imagens de exploração sexual de crianças, diz universidade

Um dos bancos de fotos mais populares entre empresas de IA tem milhares de fotos de abuso infantil

PUBLICIDADE

Por Pranshu Verma
Atualização:

THE WASHINGTON POST - Mais de 1 mil imagens de abuso sexual infantil foram encontradas em um importante banco de dados usado para treinar ferramentas de inteligência artificial (IA), disseram pesquisadores da Universidade de Stanford. O relatório, divulgado na última semana, destacou a possibilidade sombria de que o material tenha ajudado a ensinar geradores de imagens de IA a criar novas imagens falsas e realistas de exploração infantil.

PUBLICIDADE

Em um relatório divulgado pelo Observatório da Internet da Universidade de Stanford, os pesquisadores disseram ter encontrado pelo menos 1.008 imagens de exploração infantil em um banco de dados de imagens de código aberto, chamado LAION-5B. O repositório é uma das fontes populares para alimentar modelos de geração de imagens de IA, como o Stable Diffusion, que se baseiam nas fotos para criar fotos hiper-realistas.

As descobertas ocorrem em um momento em que as ferramentas de IA são cada vez mais promovidas em fóruns de pedófilos como formas de criar representações sexuais sem censura de crianças, de acordo com pesquisadores de segurança infantil. Considerando que as imagens de IA geralmente precisam ser treinadas com apenas algumas fotos para serem recriadas com precisão, a presença de mais de mil fotos de abuso infantil nos dados de treinamento pode fornecer aos geradores de imagens recursos preocupantes, disseram os especialistas.

Pais devem ouvir os filhos e levá-los para conhecer escola antes da mudança Foto: Werther Santana/Estadão

As fotos “basicamente dão ao modelo (de IA) uma vantagem na capacidade de produzir conteúdo de exploração infantil de uma forma que pode se assemelhar à exploração infantil na vida real”, disse David Thiel, autor do relatório e tecnólogo-chefe do Observatório da Internet de Stanford.

Representantes do LAION disseram que retiraram temporariamente o conjunto de dados do LAION-5B do ar “para garantir que ele seja seguro antes de ser republicado”.

Publicidade

Nos últimos anos, surgiram novas ferramentas de IA, chamadas de modelos de difusão, que permitem que qualquer pessoa crie uma imagem convincente digitando uma breve descrição do que deseja ver. Esses modelos são alimentados com bilhões de imagens retiradas da internet e imitam os padrões visuais para criar suas próprias fotos.

Esses geradores de imagens foram elogiados por sua capacidade de criar fotos hiper-realistas, mas também aumentaram a velocidade e a escala com que os pedófilos podem criar novas imagens explícitas, porque as ferramentas exigem menos conhecimento técnico do que os métodos anteriores, como colar rostos de crianças em corpos de adultos para criar “deepfakes”.

O estudo de Thiel indica uma evolução na compreensão de como as ferramentas de IA geram conteúdo de abuso infantil. Anteriormente, acreditava-se que esses modelos combinavam dois conceitos, como “criança” e “conteúdo explícito”, para criar imagens desagradáveis. Agora, as descobertas sugerem que imagens reais estão sendo usadas para refinar os resultados de IA de falsificações abusivas, ajudando-as a parecer mais reais.

As fotos de abuso infantil são uma pequena fração do banco de dados LAION-5B, que contém bilhões de imagens, e os pesquisadores argumentam que elas provavelmente foram adicionadas inadvertidamente, pois os criadores do banco de dados coletaram imagens de redes sociais, sites de vídeos adultos e da internet aberta.

Mas o fato de as imagens ilegais terem sido incluídas destaca novamente o pouco que se sabe sobre os conjuntos de dados que estão no centro das ferramentas de IA mais poderosas. Os críticos têm se preocupado com o fato de que as representações tendenciosas e o conteúdo explícito encontrados nos bancos de dados possam moldar de forma invisível o que eles criam.

Publicidade

Thiel acrescentou que há várias maneiras de regulamentar a questão. Protocolos poderiam ser implementados para rastrear e remover conteúdo de abuso infantil e pornografia não consensual dos bancos de dados. Os conjuntos de informação de treinamento poderiam ser mais transparentes e incluir informações sobre seu conteúdo. Os modelos de imagem que usam conjuntos de dados com conteúdo de abuso infantil podem ser ensinados a “esquecer” como criar imagens explícitas.

As fotos estão em processo de remoção do banco de dados de treinamento, disse Thiel.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Comentários

Os comentários são exclusivos para assinantes do Estadão.