QUANTA MAGAZINE - É um dos maiores clichês das narrativas com crimes e da ficção científica: um investigador carrega uma imagem desfocada em um computador, pede que ela seja melhorada e “tchanrã”: a fotografia fica nítida e revela alguma pista importante. É um artifício maravilhoso para contar histórias, mas tem sido uma frustração há décadas – amplie demais uma imagem e ela se tornar visivelmente pixelizada. Não há dados suficientes para ir além.
“Se você acabou de ingenuamente ampliar uma imagem, ela vai ficar desfocada. Haverá muitos detalhes, mas não vai dar certo”, disse Bryan Catanzaro, vice-presidente de pesquisa aplicada de aprendizado profundo da Nvidia.
Alcântara: O desastre espacial brasileiro
Recentemente, pesquisadores e profissionais começaram a incorporar algoritmos de inteligência artificial (IA) em suas ferramentas de aprimoramento de imagens, tornando o processo mais fácil e poderoso, porém ainda há limites para a quantidade de dados que podem ser recuperados de qualquer imagem. Felizmente, conforme os pesquisadores avançam cada vez mais com os algoritmos de aprimoramento, eles estão encontrando novas formas de lidar com esses limites – às vezes até mesmo encontrando formas de superá-los.
Na última década, os pesquisadores começaram a melhorar as imagens com um novo tipo de modelo de IA chamado rede adversária generativa (GAN, na sigla em inglês), que poderia produzir imagens detalhadas e de aparência impressionante. “As imagens de repente começaram a parecer muito melhores”, disse Tomer Michaeli, engenheiro elétrico do Technion, Instituto de Tecnologia de Israel. Mas ele ficou surpreso com o fato das imagens produzidas pelas GANs apresentarem níveis altos de distorção, que mede o quanto uma imagem aprimorada está próxima da realidade oculta nela. As GANs produziam imagens que pareciam bonitas e naturais, mas, na verdade, elas estavam inventando, ou “alucinando”, detalhes que não eram precisos, que eram registrados como níveis altos de distorção.
Michaeli observou a área de restauração fotográfica dividida em dois subgrupos distintos. “Um deles mostrava belas fotografias, muitas delas produzidas por GANs. O outro mostrava dados, mas não exibia muitas imagens, porque elas não pareciam bonitas”, disse ele.
Em 2017, Michaeli e seu aluno de pós-graduação Yochai Blau analisaram essa dicotomia de forma mais oficial. Eles fizeram o levantamento do desempenho de vários algoritmos de aprimoramento de imagens em um gráfico de distorção versus qualidade perceptiva, usando uma medida conhecida de qualidade de percepção que se correlaciona bem com a avaliação subjetiva dos humanos. Como Michaeli esperava, alguns dos algoritmos levaram a uma qualidade visual muito alta, enquanto outros foram muito precisos, apresentando uma baixa distorção. Mas nenhum tinha ambas as vantagens; era preciso escolher entre uma ou a outra. Os pesquisadores apelidaram isso de dilema de percepção-distorção.
Michaeli também encorajou outros pesquisadores a criarem algoritmos que pudessem produzir a melhor qualidade de imagem para um determinado nível de distorção, para permitir comparações justas entre os algoritmos de imagens belas e aqueles com dados bons. Desde então, centenas de pesquisadores de IA informaram as qualidades de distorção e percepção de seus algoritmos, citando o artigo de Michaeli e Blau que descreveu o dilema.
Às vezes, as implicações do dilema de percepção-distorção não são terríveis. A Nvidia, por exemplo, descobriu que as telas de alta definição não estavam renderizando bem alguns conteúdos visuais de baixa definição, então, em fevereiro, lançou uma ferramenta que usa aprendizado profundo para melhorar a transmissão de vídeo. Nesse caso, os engenheiros da Nvidia escolheram a qualidade perceptiva em detrimento da precisão, aceitando o fato de que, quando o algoritmo melhora o vídeo, ele cria alguns detalhes visuais que não estão no vídeo original. “O modelo está alucinando. Tudo é uma suposição”, disse Catanzaro. “Na maioria das vezes, é aceitável um modelo de super-resolução fazer suposições equivocadas, desde que seja consistente.”
É claro que para serem usados na pesquisa e na medicina é necessário muito mais precisão. A tecnologia de IA levou a grandes avanços nas imagens, mas eles “às vezes vêm com efeitos colaterais indesejados, como sobreajuste ou [adição] de recursos falsos, e, portanto, precisam ser tratados com extremo cuidado”, disse Junjie Yao, engenheiro biomédico da Universidade de Duke. No ano passado, ele coescreveu um artigo que descreve como as ferramentas de IA podem melhorar os métodos existentes de medida de fluxo sanguíneo e metabolismo no cérebro – ao mesmo tempo em que se mantém prudentemente do lado da precisão no dilema de distorção-percepção.
Uma maneira de se driblar os limites de quantos dados podem ser extraídos de uma imagem é simplesmente incorporar dados de mais imagens – embora isso muitas vezes não seja tão simples. Os pesquisadores que estudam o meio ambiente com imagens de satélite alcançaram avanços na combinação de diferentes fontes de dados visuais. Em 2021, um grupo de pesquisadores da China e do Reino Unido combinou dados de dois tipos diferentes de satélites para ter uma ideia melhor do desmatamento na Bacia do Congo, a segunda maior floresta tropical do mundo e uma das maiores reservas de biodiversidade. Os pesquisadores coletaram dados com dois satélites Landsat, que medem o desmatamento há décadas, e usaram técnicas de aprendizado profundo para aprimorar a resolução das imagens de 30 metros para 10 metros. Depois eles combinaram esse conjunto de imagens com dados de dois satélites Sentinel-2, que têm um conjunto ligeiramente diferente de detectores. As imagens combinadas “permitiram detectar de 11% a 21% mais áreas afetadas do que era possível usando apenas as imagens dos satélites Sentinel-2 ou Landsat-7 e 8″, escreveram.
Michaeli sugere outra forma de contornar, se não superar, os limites rígidos de acessibilidade às informações. Em vez de escolherem uma única resposta constante para como melhorar uma imagem de baixa qualidade, os modelos poderiam mostrar interpretações múltiplas diferentes da imagem original. Em um artigo intitulado “Explorable Super Resolution” (Super-resolução explorável, em tradução livre), ele ajudou a demonstrar como as ferramentas de aprimoramento de imagem poderiam apresentar várias sugestões para um usuário. Uma imagem embaçada e de baixa resolução de uma pessoa vestindo o que parece ser uma camiseta acinzentada poderia ser transformada em uma imagem de alta resolução na qual a camiseta tem listras verticais em preto e branco, listras horizontais ou xadrez, todas as opções sendo igualmente plausíveis.
Em outro exemplo, Michaeli tirou uma foto de baixa qualidade da placa de um carro e usou um aprimorador de imagens de ponta com ela, que mostrou que um 1 na placa parecia muito com um 0. Mas quando a imagem foi processada por um algoritmo diferente e mais inconclusivo criado por Michaeli, parecia igualmente provável que o dígito fosse 0, 1 ou 8. Este método poderia ajudar a descartar outros números sem concluir erroneamente que o dígito era zero.
À medida que áreas diferentes tentam lidar com o dilema de percepção-distorção de suas próprias maneiras, a dúvida sobre o quanto podemos extrair de imagens com a IA e o quanto podemos confiar nessas imagens permanece central. “Devemos lembrar que para gerar essas imagens belas, os algoritmos apenas inventam detalhes”, disse Michaeli. Podemos mitigar essas alucinações, mas aquele botão superpoderoso que resolve crimes ao “ampliar” imagens, continuará sendo um sonho. /TRADUÇÃO ROMINA CÁCIA
História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em The AI Tools Making Images Look Better.
Os comentários são exclusivos para assinantes do Estadão.