Durante anos, as pessoas que criaram sistemas avançados de inteligência artificial (IA) usaram enormes quantidades de textos, imagens e vídeos extraídos da Internet para treinar seus modelos. Mas, agora, esses dados estão se esgotando.
No último ano, muitas das mais importantes fontes da Web usadas para treinar modelos de IA restringiram o uso de seus dados, de acordo com um estudo publicado esta semana pela Data Provenance Initiative, um grupo de pesquisa liderado pelo MIT.
O estudo, que analisou 14 mil domínios da Web incluídos em três conjuntos de dados de treinamento de IA comumente usados, descobriu uma “crise emergente de consentimento”, pois os editores e as plataformas online tomaram medidas para evitar que seus dados fossem coletados.
Os pesquisadores estimam que, nos três conjuntos de dados (chamados C4, RefinedWeb e Dolma), foram restringidos 5% de todos os dados e 25% dos dados das fontes de maior qualidade. Essas restrições são estabelecidas por meio do Protocolo de Exclusão de Robôs, um método que existe há décadas para que os proprietários de sites impeçam que bots automatizados rastreiem suas páginas usando um arquivo chamado robots.txt.
O estudo também constatou que até 45% dos dados em um conjunto, o C4, haviam sido restringidos pelos termos de serviço dos sites.
“Estamos observando um rápido declínio no consentimento para o uso de dados na Web, o que terá ramificações não apenas para empresas de IA, mas também para pesquisadores, acadêmicos e entidades não comerciais”, disse Shayne Longpre, principal autor do estudo, em uma entrevista.
Leia também
Os dados são o principal ingrediente dos sistemas de IA generativos atuais, que são alimentados com bilhões de exemplos de textos, imagens e vídeos. Muitos desses dados são extraídos de sites públicos por pesquisadores e compilados em grandes conjuntos de dados, que podem ser baixados e usados livremente, ou complementados com dados de outras fontes.
Aprender com esses dados é o que permite que ferramentas de IA generativas, como o ChatGPT, da OpenAI, o Gemini, do Google, e o Claude, da Anthropic, escrevam, codifiquem e gerem imagens e vídeos. Quanto mais dados de alta qualidade forem inseridos nesses modelos, melhores serão seus resultados.
Durante anos, os desenvolvedores de IA conseguiram coletar dados com bastante facilidade. Mas o boom da IA generativa dos últimos anos gerou tensões com os proprietários desses dados - muitos dos quais têm dúvidas sobre o fato de serem usados como material de treinamento de IA ou, pelo menos, querem ser pagos por isso.
Com o aumento da reação, alguns editores criaram paywalls ou alteraram seus termos de serviço para limitar o uso de seus dados para treinamento de IA. Outros bloquearam os rastreadores automatizados da Web usados por empresas como OpenAI, Anthropic e Google.
Sites como Reddit e StackOverflow começaram a cobrar das empresas de IA pelo acesso aos dados, e alguns editores tomaram medidas legais - incluindo o The New York Times, que processou a OpenAI e a Microsoft por violação de direitos autorais no ano passado, alegando que as empresas usaram artigos de notícias para treinar seus modelos sem permissão.
Nos últimos anos, empresas como a OpenAI, o Google e a Meta se esforçaram ao máximo para coletar mais dados para aprimorar seus sistemas, incluindo a transcrição de vídeos do YouTube e a flexibilização de suas próprias políticas de dados.
Mais recentemente, algumas empresas de IA fecharam acordos com editoras, incluindo a agência The Associated Press e o conglomerado News Corp, proprietário do The Wall Street Journal, dando-lhes acesso contínuo ao seu conteúdo.
Leia também
Mas as restrições generalizadas de dados podem representar uma ameaça para as empresas de IA, que precisam de um fornecimento constante de dados de alta qualidade para manter seus modelos atualizados.
Elas também podem significar problemas para pequenas empresas de IA e pesquisadores acadêmicos que dependem de conjuntos de dados públicos e não podem se dar ao luxo de licenciar dados diretamente dos editores. O Common Crawl, um desses conjuntos de dados que abrange bilhões de páginas de conteúdo da Web e é mantido por uma organização sem fins lucrativos, foi citado em mais de 10 mil estudos acadêmicos, disse Longpre.
Não está claro quais produtos populares de IA foram treinados nessas fontes, pois poucos desenvolvedores divulgam a lista completa de dados que utilizam. Mas os conjuntos de dados derivados do Common Crawl, incluindo o C4 (que significa Colossal, Cleaned Crawled Corpus), foram usados por empresas como Google e OpenAI para treinar versões anteriores de seus modelos. Porta-vozes do Google e da OpenAI não quiseram comentar.
Não é de surpreender que estejamos vendo uma reação negativa dos criadores de dados depois que o texto, as imagens e os vídeos que eles compartilham online são usados para desenvolver sistemas comerciais que, às vezes, ameaçam diretamente seus meios de subsistência
Yacine Jernite, pesquisador da Hugging Face
Yacine Jernite, pesquisador de aprendizado de máquina da startup Hugging Face, uma empresa que fornece ferramentas e dados para desenvolvedores de IA, caracterizou a crise de consentimento como uma resposta natural às práticas agressivas de coleta de dados do setor de IA.
“Não é de surpreender que estejamos vendo uma reação negativa dos criadores de dados depois que o texto, as imagens e os vídeos que eles compartilham online são usados para desenvolver sistemas comerciais que, às vezes, ameaçam diretamente seus meios de subsistência”, disse ele.
Mas ele advertiu que, se todos os dados de treinamento de IA precisassem ser obtidos por meio de acordos de licenciamento, isso excluiria “pesquisadores e a sociedade civil da participação na governança da tecnologia”.
Stella Biderman, diretora executiva da EleutherAI, uma organização de pesquisa em IA sem fins lucrativos, repetiu esses temores.
“As grandes empresas de tecnologia já têm todos os dados”, disse ela. “Alterar a licença dos dados não revoga retroativamente essa permissão, e o principal impacto é sobre os atores que chegam mais tarde, que normalmente são startups menores ou pesquisadores.”
As empresas de IA alegam que o uso de dados públicos da Web é legalmente protegido pelo uso justo. Mas a coleta de novos dados ficou mais complicada. Alguns executivos de I.A. com quem conversei se preocupam com a possibilidade de atingir o “muro de dados” - termo usado por eles para designar o ponto em que todos os dados de treinamento na Internet pública se esgotaram e o restante ficou escondido atrás de paywalls, bloqueado por robots.txt ou preso em acordos exclusivos.
Algumas empresas acreditam que podem escalar o muro de dados usando dados sintéticos (ou seja, dados que são gerados por sistemas de IA) para treinar seus modelos. Mas muitos pesquisadores duvidam que os sistemas de IA atuais sejam capazes de gerar dados sintéticos de alta qualidade suficientes para substituir os dados criados por humanos que estão perdendo.
Outro desafio é que, embora os editores possam tentar impedir que as empresas de IA extraiam seus dados colocando restrições em seus arquivos robots.txt, essas solicitações não são legalmente obrigatórias e a conformidade é voluntária. (Pense nisso como uma placa de “proibido entrar” para dados, mas sem força de lei).
Os principais mecanismos de pesquisa honram essas solicitações de exclusão e várias empresas líderes em IA, incluindo a OpenAI e a Anthropic, afirmaram publicamente que também o fazem. Mas outras empresas, inclusive a Perplexity, uma ferramenta de busca com tecnologia de IA, foram acusadas de ignorá-las. O presidente executivo da Perplexity, Aravind Srinivas, me disse que a empresa respeita as restrições de dados dos editores. Ele acrescentou que, embora a empresa já tenha trabalhado com rastreadores da Web de terceiros que nem sempre seguiam o Protocolo de Exclusão de Robôs, ela “fez ajustes com nossos provedores para garantir que eles sigam o robots.txt ao rastrear em nome da Perplexity”.
Longpre disse que uma das grandes conclusões do estudo é que precisamos de novas ferramentas para oferecer aos proprietários de sites maneiras mais precisas de controlar o uso de seus dados. Alguns sites podem se opor ao uso de seus dados por gigantes da IA para treinar chatbots com fins lucrativos, mas podem estar dispostos a permitir que uma instituição educacional ou sem fins lucrativos use os mesmos dados, disse ele. No momento, não há uma boa maneira de distinguir entre esses usos, ou de bloquear um e permitir o outro.
Mas há também uma lição aqui para as grandes empresas de IA, que há anos tratam a Internet como um bufê de dados à vontade, sem dar aos proprietários desses dados muito valor em troca. Eventualmente, se você tirar proveito da Web, ela começará a fechar suas portas.
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.
Os comentários são exclusivos para assinantes do Estadão.