THE WASHINGTON POST - Os temores de Yacine Jernite em relação ao preconceito na inteligência artificial (IA) foram claramente confirmados em 2017, quando um erro de tradução do Facebook levou a polícia israelense a prender um trabalhador da construção civil palestino. O homem postou uma foto dele encostado em um trator de esteira com a legenda, em árabe, “bom dia”. O Facebook traduziu a expressão erroneamente para o hebraico como “ataque-os”.
Agora Jernite, 33, está tentando conduzir a IA por um caminho melhor. Depois de deixar o Facebook, ele se juntou à BigScience, iniciativa global que conta com mil pesquisadores em 60 países para desenvolver uma IA mais transparente e responsável.
A iniciativa treinou um sistema de computador com dados adequados que foram selecionados por humanos de diferentes culturas. A IA resultante, chamada BigScience, foi lançada em 12 de julho para que os pesquisadores a estudassem.
Financiada em parte pelo atual empregador de Jernite, uma startup chamada Hugging Face, a BigScience também recebeu doações do governo francês para usar o supercomputador Jean Zay fora de Paris – recursos que Jernite disse terem lhe permitido evitar as “escolhas por conveniência” que assolam as gigantes da tecnologia.
“As gigantes não se importam com os dados. Eles apenas usam o que for mais fácil”, afirma Maarten Sap, professor do Instituto de Tecnologias de Linguagem da Universidade Carnegie Mellon.
Por outro lado, Jernite ajudou a recrutar comunidades de falantes nativos, começando com oito idiomas falados com frequência e que também representam uma ampla faixa do globo, entre eles estão árabe, chinês e espanhol. Eles escolheram a dedo mais de 60% do conjunto de dados de 341 bilhões de palavras que foi usado para treinar a IA.
Preconceitos
A BigScience tem como foco um dos setores mais aquecidos na área: modelos de linguagem que reconhecem e geram texto – já usados em chatbots, moderação de conteúdo e tradução.
Os modelos de linguagem não são capazes de entender o idioma ou seus significados. Para realizar essas tarefas, eles exigem quantidades enormes de dados para ensiná-los a encontrar as associações entre as palavras e prever qual delas virá em seguida.
Na maioria dos laboratórios corporativos, esses modelos de linguagem dependem de compilações de dados que foram extraídos da web, alimentando sua IA com tudo, desde entradas da Wikipédia e postagens do Reddit, até conteúdo de sites pornográficos e outras fontes com preconceitos bem documentados e visões de mundo preocupantes.
Os resultados são alarmantes. Um artigo de 2021 descobriu que o GPT-3, modelo de linguagem lançado pela OpenAI, costumava associar muçulmanos à violência.
A OpenAI analisou preconceitos no GPT-3 antes de utilizar o modelo. Em um comunicado, a pesquisadora de políticas da OpenAI, Sandhini Agarwal, disse: “O preconceito e o uso indevido são problemas importantes e presentes em todo o setor que levamos muito a sério e estamos em busca de uma série de soluções”, incluindo a curadoria de dados usados para treinar seus modelos e o acréscimo de filtros para reduzir respostas nocivas.
“As gigantes da tecnologia não se importam com os dados. Elas apenas usam o que for mais fácil
Maarten Sap, professor do Instituto de Tecnologias de Linguagem da Universidade Carnegie Mellon
Origem
Não apenas os programas são treinados em inglês, mas os dados geralmente vêm de fontes dos EUA, o que afeta suas respostas a perguntas em relação, por exemplo, ao islamismo, diz Thomas Wolf, diretor científico da Hugging Face. A BigScience criou uma versão de código aberto dos dados, chamado Bloom. Wolf disse que está curioso para ver se o Bloom responde a perguntas de modo diferente, já que foi treinado em inglês e árabe.
Nos últimos anos, as empresas de tecnologia fizeram progressos para expandir os modelos de linguagem para outros idiomas além do inglês. As compilações existentes de dados das quais eles costumam depender incluem muitos outros idiomas, mas às vezes essas coletâneas identificam os termos de forma equivocada.
A estratégia da BigScience – de pedir aos indivíduos para selecionar 60% dos dados de treinamento – representa uma mudança radical. Mas quase 40% do conjunto de dados da BigScience ainda é extraído da forma convencional. Quando chegou a hora de filtrar esses dados, tentou-se evitar fazer julgamentos de valor sobre conteúdos de conotação sexual, disse Jernite, mas se errou ao não bloquear certos termos.
Pesquisas mostraram que o uso de filtros pode levar a novos problemas. Um artigo de 2021 sobre um dos maiores conjuntos de dados extraídos da internet descobriu que, ao remover insultos de uma lista de bloqueio aprovada pelo setor, isso acabou removendo conteúdo relacionado à identidade LGBT+, assim como textos em linguagem coloquial de origem afro-americana hispânica
As ambições da BigScience vão além de trabalhar com falantes de outros idiomas. Ela também envolveu essas comunidades na tomada de decisões e pediu que oferecessem informações para ajudar a entender sua cultura. Alguns dos grupos com os quais a BigScience trabalhou são Masakhane, grupo africano de aprendizado de máquina, LatinX in AI, Machine Learning Tokyo e VietAI.
Abeba Birhane, membro sênior da Fundação Mozilla, disse que a BigScience representou uma melhoria em relação a OpenAI e o Google. Mas advertiu que essas comunidades talvez só recebam “um benefício de cima para baixo”. As mesmas corporações poderiam investir, usar os conjuntos de dados recém-surgidos em seus modelos e continuar a se posicionar como “autoridades nessas ferramentas”, disse ela. / TRADUÇÃO ROMINA CÁCIA
Os comentários são exclusivos para assinantes do Estadão.