Um dia, no verão de 2005, Dominique Allman Papa, de Evanston, Illinois, colocou fotos dos seus filhos ainda bebês, Chloe e Jasper, no site Flickr. Depois saiu da plataforma e basicamente esqueceu sua conta ali. Recentemente, ela viu imagens de Chole e Jasper sorrindo ao lado dos pais, mostrando a língua, fantasiados para o Halloween, que foram sugadas pelo MegaFace, um imenso banco de dados de reconhecimento facial.
Contendo mais de 700 mil fotos, esse banco de dados tem sido carregado por dezenas de empresas para treinar e testar uma nova geração de algoritmos de identificação facial, usados para rastrear manifestantes, investigar terroristas, localizar pessoas problemáticas e espiões no público em geral. A idade média das pessoas no banco de dados é de 16 anos, afirmam os criadores.
“Isso é algo asqueroso e incômodo”, disse Chloe Papa, hoje com 19 anos e que estuda na faculdade em Oregon. “Gostaria que tivessem me perguntado antes se eu desejava fazer parte disso. Acho interessante a inteligência artificial, mas no geral você pergunta às pessoas se querem participar de uma pesquisa.”
Legalmente, muitos americanos no banco de dados não precisam ser contatados para darem autorização, mas a família Papa deveria. Como moradores de Illinois, eles estão protegidos por uma das leis de privacidade mais rigorosas no país: a Biometric Information Privacy Act, de 2008, que impõe penalidades financeiras no caso da utilização de impressões digitais ou imagens do rosto de cidadãos do Estado sem o seu consentimento.
Entre as empresas que usaram o banco de dados estão Google, Amazon, Mitsubishi Electric, Tencent e SenseTime, que parecem ter desconhecido a lei e foram obrigados a pagar enormes indenizações financeiras, segundo vários advogados e professores de Direito.
Como nasceu o Megaface
Como os irmãos Papa e centenas de milhares de pessoas acabaram nesse banco de dados, é uma história muito densa. No início da tecnologia de reconhecimento facial, os pesquisadores desenvolveram seus algoritmos com o consentimento claro das pessoas. Na década de 90, universidades e voluntários se deixaram fotografar de muitos ângulos. Mais tarde, os pesquisadores se tornaram mais agressivos e adotaram métodos para reunir rostos em uma escala maior, recorrendo a câmeras de segurança nos cafés, nos campi de faculdades e em espaços públicos e ainda aproveitando fotos postadas online.
De acordo com Adam Harvey, um artista que monitora bancos de dados, existem provavelmente mais de 200 bancos atualmente contendo dezenas de milhões de fotos de um milhão de pessoas. Mas eles têm falhas. As imagens com frequência são de má qualidade e coletar fotos da internet costuma render muito para celebridades.
Em junho de 2014, buscando promover a causa, Yahoo apresentou o que chamou de “a maior coleção de multimídia pública já divulgada” com 100 milhões de fotos e vídeos. O Yahoo obteve as imagens – todas com licença de uso comercial – do site Flickr, uma subsidiária.
Os pesquisadores necessitam de volumes enormes de dados para treinar seus algoritmos e funcionários de algumas empresas ricas de informação – como Facebook e Google – tinham uma grande vantagem sobre os demais.“Nós quisemos capacitar a comunidade de pesquisa dando a ela um banco de dados robusto”, disse David Ayman Shamma, que foi diretor de pesquisa no Yahoo até 2016 e ajudou a criar o projeto do Flickr. Os usuários não foram notificados de que suas fotos e vídeos foram incluídas, mas Shamma e sua equipa criaram o que achavam ser uma salvaguarda. Eles não distribuíram as fotos diretamente, mas criaram links para elas. Dessa forma, se um usuário deletasse as imagens ou as tornasse privadas, ele não teria mais acesso ao banco de dados.
Mas essa salvaguarda era falha. O The New York Times encontrou uma vulnerabilidade de segurança que permitia que fotos de um usuário do Flickr fossem acessadas mesmo depois de tornadas privadas. Scott Kinzie, porta-voz do SmugMug, que adquiriu o Flickr em 2018, disse que hoje a falha “potencialmente tem impacto sobre um número muito pequeno dos nossos membros e estamos trabalhando intensamente para instalar uma atualização o mais rápido possível”). Bem MacAskill, diretor de operações da companhia, acrescentou que a coleção de imagens do Yahoo foi criada “anos antes de comprarmos o Flickr”.
Além disso, alguns pesquisadores que acessaram o banco de dados simplesmente baixaram versões das imagens e as redistribuíram, incluindo uma equipe da Universidade de Washington. Em 2015, dois professores de Ciência da Computação da faculdade – Ira Kemelmacher-Shlizerman e Steve Seitz – e seus alunos usaram dados do Flickr para criar o MegaFace. Contendo mais de quatro milhões de fotos de 672 mil pessoas, esse conjunto de dados respaldou os testes e o aperfeiçoamento de algoritmos de reconhecimento facial.
Monitorando Uigures e publicando fotos de atores pornô
Importante para os pesquisadores da Universidade de Washington era que o MegaFace incluísse crianças como Chloe e Jasper Papa. Sistemas de reconhecimento de rosto no geral são ruins no caso de crianças pequenas, mas o Flickr oferecia a chance de melhorar isso com sua grande quantidade de rostos infantis, pela simples razão de que as pessoas adoram postar fotos dos filhos online. Em um estudo acadêmico, Kemelmacher-Shlizerma e um aluno chamado Aaron Nech calcularam a média de idade de pessoas no MegaFace em 16,1 anos; 41% dos rostos pareciam ser femininos e 56% masculinos.
Em 2015 e 2016, a Universidade de Washington criou o MegaFace Challenge, convidando grupos para trabalharem na tecnologia de reconhecimento facial usando o conjunto de dados para testar como seus algoritmos estavam funcionando. A universidade pediu às pessoas que carregassem os dados e se comprometessem a usá-los somente para “pesquisa não comercial e fins educacionais”.
Mais de 100 organizações participaram, incluindo Google, Tencent, SenseTime e NtechLab. No total, “mais de 300 grupos de pesquisa” trabalharam com o banco de dados, segundo comunicado à imprensa feito pela universidade em 2016, o que foi citado publicamente por pesquisadores da Amazon e, de acordo com Harvey, o artista que monitora banco de dados, Mitsubishi Electric e Phillis.
Algumas dessas empresas foram criticadas pela maneira como os clientes usaram seus algoritmos: a tecnologia do SenseTime foi usada para monitorar a população Uigur na China, ao passo que o NtechLab foi utilizado para mostrar atores pornôs e identificar estrangeiros nos metrôs da Rússia.
O diretor de marketing do SenseTime, June Jin, disse que os pesquisadores da companhia usaram o banco de dados do MegaFace para se certificarem de que seus resultados eram comparáveis. “Como o MegaFace é o banco de dados mais amplamente reconhecido, ele se tornou o instrumento de treinamento e teste de reconhecimento facial para a comunidade acadêmica e de pesquisa global”, afirmou ele.
Porta-voz do NtechLab, Nikolay Gruni, disse que a empresa apagou o MegaFace depois da sua participação no concurso da Universidade de Washington. Google não fez comentários.
Uma porta-voz da Universidade de Washington não permitiu que os pesquisadores envolvidos no MegaFace dessem entrevistas, alegando que “foram transferidos para outros projetos e não têm tempo para falar sobre esse caso”. A criação do MegaFace foi financiada em parte pela Samsung, Google, um prêmio de pesquisa conquistado pela faculdade e fundos da National Sciente Foundation/Intel.
O que é isso, afinal?
MegaFace continua disponível para o público. Quando o The New York Times tentou acessá-lo, entrou no site em um minuto. O MegaFace não contém nomes de pessoas, mas seus dados não são anônimos. Porta-voz da Universidade de Washington disse que os pesquisadores agiram de acordo com as licenças da Creative Commons. Como resultado, cada foto inclui um identificador numérico que liga à conta do fotógrafo original do Flickr. Dessa maneira o The Times conseguiu ligar muitas fotos do banco de dados às pessoas que as tiraram.
Em 2008, o Estado de Illinois aprovou lei protegendo informação de “identificadores biométricos” dos seus moradores. Dois outros Estados, Texas e Washington, também promulgaram leis a respeito, mas não tão robustas como as de Illinois, que proíbe estritamente a captura, compra de dados biométricos de qualquer pessoa, incluindo um scan da sua “geometria facial”, sem consentimento da pessoa.
“As fotos em si não estão cobertas pela lei, mas o scan de fotos sim. O mero uso de dados biométricos é uma violação da lei”, disse Faye Jones, professor de Direito da Universidade de Illinois. “Usar isso num concurso algorítmico quando não notificou as pessoas, é uma violação da lei.”
Moradores de Illinois, como a família Papa, cujas impressões faciais são usadas sem sua permissão podem mover uma ação legal e têm direito a US$ 1 mil por uso da foto, ou US$ 5.000 se o uso foi irresponsável. O The Times procurou avaliar quantas pessoas de Illinois estão no banco de dados do MegaFace; um enfoque para isso, usando informação dada pela própria pessoa, indicou 6 mil indivíduos, e outro usando metadados de identificação geográfica indicou 13 mil. Seus dados biométricos foram provavelmente processados por dezenas de companhias. De acordo com vários especialistas legais, a indenização a ser paga por chegar a mais de US$ 1 bilhão se uma ação coletiva for instaurada.
“Temos muitos advogados especializados em ações coletivas aqui em Illinois”, disse Jeffrey Widman, gerente da Fox Rothschild em Chicago. “A lei existe em Illinois desde 2008, mas foi ignorada por uma década.” Asseguro que em 2014 ou 2015 essa responsabilidade potencial não estava no radar de ninguém. Mas a tecnologia agora foi alcançada pela lei.”
Um processo de US$ 35 bilhões contra o Facebook
É notável que a lei de Illinois exista. De acordo com Matthew Kluger, professor de Direito na Iniversidade Northwestern, disse que a lei foi inspirada pela falência em 2007 de uma companhia chamada Pay by Touch, que possuía as impressões digitais de muitos americanos, incluindo pessoas de Illinois, no arquivo. Havia preocupação de que ela poderia vender esses dados durante sua liquidação. Ninguém do setor de tecnologia interferiu na lei, segundo legisladores e lobistas. “Quando a lei foi aprovada ninguém ficou preocupado com o assunto, como está hoje”, disse o professor.
Hoje, o Vale do Silício está ciente da lei. A Bloomberg News informou em abril de 2018 que lobistas do Google e do Facebook tentavam abrandar as cláusulas da lei. Mais de 200 ações coletivas foram impetradas em Illinois desde 2015, incluindo uma contra o Facebook, com um pedido de indenização de US$ 25 bilhões por uso de reconhecimento facial para marcar pessoas em fotos. A ação ganhou impulso em agosto quando o tribunal federal da nona região rejeitou defesa da companhia alegando que as pessoas não sofreram “danos concretos”.
Nos últimos anos, as empresas de tecnologia vêm tendo mais cuidado em Estados com legislação sobre dados biométricos. Quando o Google lançou um programa em 2018 que combina selfies com obras de arte famosas, as pessoas em Illinois e Texas não puderam usá-lo. E as câmeras de segurança Nest do Google não têm um programa padrão para reconhecimento de rostos familiares em Illinois.
“É assustador o fato de você ter me localizado. Sempre soube que o que eu colocava ali era público, mas não imaginava isso”, disse Wendy Piersall, editora e vereadora em Woodstock, Illinois, cujas fotos, com as de seus três filhos, estavam no banco de dados do MegaFace. “Não podemos usar o aplicativo de arte; então porque estão usando o rosto dos meus filhos para testar seu software”, indagou ela. “Minhas fotos são feitas em Illinois. Não é difícil imaginar onde elas foram tiradas. Não sou uma pessoa que gosta de processar alguém, mas eu torço para alguém ir atrás de quem fez isso.”
Niilismo privado
Algumas ações judiciais em Illinois foram solucionadas por meio de acordo ou abandonadas, mas muitas estão ativas, e Kugler, professor de Direito, observou que dúvidas legais básicas ainda estão sem resposta. Não está claro quanto deve ser a indenização no caso de uma empresa que pega fotos que foram carregadas em computadores em Illinois, mas processa os dados faciais em outro Estado, ou mesmo em outro país. “Os réus vão ser criativos na busca de argumentos, porque ninguém quer ficar com essa cara batata quente”, disse ele.
Um porta-voz da Amazon Web Services disse que o uso dos bancos de dados da empresa “cumprem as normas do BIPA. Mario Fante, da Phillips, escreveu em um e-mail que a companhia “nunca teve conhecimento de que moradores de Illinois estavam incluídos no banco de dados acima mencionado”.
Victor Balta, porta-voz da Universidade de Washington, afirmou que “todo o uso de fotos no banco de dados dos pesquisadores são legais. Esta é uma universidade de pesquisa pública, não uma entidade privada, e a lei de Illinois visa às entidades privadas”. / TRADUÇÃO DE TEREZINHA MARTINO