Dois conteúdos que viralizaram recentemente na internet utilizam tecnologia de inteligência artificial para enganar usuários nas redes sociais. As chamadas deepfakes ainda demandam um alto grau de conhecimento e técnica, mas versões mais simples já estão ao alcance do público e têm sido usadas para espalhar desinformação neste ano eleitoral.
As deepfakes são criadas a partir de algoritmos treinados com uma grande quantidade de fotos, vídeos ou áudios. Segundo o diretor do Instituto de Computação da Universidade Estadual de Campinas (Unicamp), Anderson Rocha, um algoritmo é treinado para reconhecer as características de uma face humana e reproduzi-la. Assim, é possível alterar vídeos de modo a parecer que alguém está fazendo ou dizendo algo que nunca fez ou disse.
“Uma das técnicas é a rede adversarial com dois algoritmos. Um gera o rosto e o outro vai avaliar se está bom ou não”, disse Rocha. Esse processo se repete sucessivamente, de modo que o algoritmo vai se refinando. Pessoas públicas como artistas e políticos têm mais conteúdo disponível, por isso estão mais sujeitas ao uso de deepfakes. Isso vale também para áudios.
No início deste mês, o Estadão Verifica checou um vídeo no qual o âncora do Jornal Nacional, da TV Globo, William Bonner, parece falar “encontro de dois bandidos” ao mostrar o ex-presidente Luiz Inácio Lula da Silva e o ex-governador Geraldo Alckmin. A voz atribuída a Bonner foi produzida por meio da técnica Text to Speech (TTS), que gera áudios sinteticamente a partir de conteúdo em texto.
Em outro vídeo que viralizou, Lula e o ex-prefeito de Belo Horizonte Alexandre Kalil caminham juntos em um palco. O homem que filma a cena surge nas imagens e parece dizer: “O ladrão chegou”. Ele, no entanto, não falou isso. A expressão facial do autor do vídeo foi modificada por um aplicativo de celular que permite sobrepor um rosto em movimento a outro.
O vídeo adulterado de Lula com Kalil apresenta uma marca d’água de um aplicativo de celular que faz esse tipo de alteração. Apesar disso, especialistas ressaltam que apenas versões menos sofisticadas dessa tecnologia estão disponíveis em larga escala. Deepfakes muito elaborados ainda exigem uma quantidade grande de treinamento de algoritmos.
De acordo com Rocha, quando os algoritmos não eram tão desenvolvidos, era mais fácil identificar uma deepfake. Era possível prestar atenção ao movimento dos olhos ou da boca para detectar possíveis manipulações. Com o aperfeiçoamento da técnica, essas falhas ficaram menos perceptíveis. “É preciso ter senso crítico sobre os conteúdos. Tem que ver se a fonte é confiável ou se é apenas alguma informação de rede social”, afirmou.
O uso de áudio fora do contexto também está presente no vídeo de Lula e Kalil. A gravação foi editada para inserção de um coro que grita “ladrão”. Segundo a agência de checagem Aos Fatos, uma funcionalidade de dublagem do TikTok – normalmente usada para desafios e brincadeiras – vem sendo usada para criar conteúdos enganosos.
Os comentários são exclusivos para assinantes do Estadão.