Artistas lutam para receber por direito autoral após IAs aprenderem com seus trabalhos

THE WASHINGTON POST — Um grupo cada vez mais vocal de artistas, escritores e cineastas está argumentando que ferramentas de inteligência artificial como os chatbots ChatGPT e Bard foram treinadas ilegalmente em seus trabalhos sem permissão ou compensação — representando uma grande ameaça legal para as empresas que estão implementando a tecnologia para milhões de pessoas ao redor do mundo.

O ChatGPT, da OpenAI, e o gerador de imagens Dall-E, assim como Bard, do Google, e Stable Diffusion, da Stability AI, foram todos treinados em bilhões de artigos de notícias, livros, imagens, vídeos e postagens de blogs raspados da internet, muitos dos quais são protegidos por direitos autorais.

Na semana passada, a comediante Sarah Silverman entrou com um processo contra a OpenAI e a empresa controladora do Facebook, a Meta, alegando que eles usaram uma cópia pirateada de seu livro nos dados de treinamento porque os chatbots das empresas conseguem resumir seu livro com precisão.

continua após a publicidade

Os romancistas Mona Awad e Paul Tremblay abriram um processo semelhante contra a OpenAI. E mais de 5 mil autores, incluindo Jodi Picoult, Margaret Atwood e Viet Thanh Nguyen, assinaram uma petição pedindo que as empresas de tecnologia obtenham o consentimento e dêem crédito e compensação aos escritores cujos livros foram usados nos dados de treinamento.

Foram abertas duas ações coletivas contra a OpenAI e o Google, ambas alegando que as empresas violaram os direitos de milhões de usuários da internet ao usar seus comentários nas redes sociais para treinar IA conversacional. E, na semana passada, a Comissão Federal de Comércio (FTC, na sigla em inglês) abriu uma investigação para verificar se a OpenAI violou os direitos do consumidor com suas práticas de dados.

Raspagem de dados

O movimento de criadores pedindo mais consentimento sobre como seu conteúdo protegido por direitos autorais é usado faz parte de um movimento maior, à medida que a IA muda as regras e normas estabelecidas há muito tempo para a internet. Por anos, os sites ficaram felizes em ter o Google e outras gigantes da tecnologia raspando seus dados para o propósito de ajudá-los a aparecer em resultados de busca ou acessar redes de publicidade digital, ambas ajudando-os a ganhar dinheiro ou alcançar novos clientes.

continua após a publicidade

Existem alguns precedentes que podem funcionar a favor das empresas de tecnologia, como uma decisão do Tribunal de Apelações dos EUA de 1992 que permitiu às empresas reverterem a engenharia do código de software de outras empresas para projetar produtos concorrentes, diz Andres Sawicki, professor de direito da Universidade de Miami que estuda propriedade intelectual. Mas muitas pessoas sentem que há uma injustiça intuitiva em grandes empresas ricas usando o trabalho de criadores para criar novas ferramentas geradoras de dinheiro sem compensar ninguém.

“A questão da IA generativa é realmente difícil”, ele disse.

A batalha sobre quem se beneficiará da IA já está ficando acirrada.

continua após a publicidade

Em Hollywood, a IA tornou-se um ponto central de conflito para escritores e atores que recentemente entraram em greve. Os executivos de estúdio querem preservar o direito de usar a IA para criar ideias, escrever roteiros e até replicar as vozes e imagens dos atores. Os trabalhadores veem a IA como uma ameaça existencial para seus meios de subsistência.

Os criadores de conteúdo estão encontrando aliados entre as principais empresas de mídia social, que também viram os comentários e discussões em seus sites raspados e usados para ensinar bots de IA como funciona a conversação humana.

Tivemos várias entidades tentando coletar todos os tuítes já feitos

Elon Musk, dono do Twitter

Na sexta-feira, Elon Musk, proprietário do Twitter, disse que o site estava lidando com empresas e organizações que estavam “ilegalmente” raspando seu site constantemente, ao ponto de ele decidir limitar o número de tuítes que contas individuais poderiam visualizar na tentativa de impedir a raspagem em massa. “Tivemos várias entidades tentando coletar todos os tuítes já feitos”, disse Musk.

Outras redes sociais, incluindo o Reddit, também tentaram impedir que conteúdos de seus sites fossem coletados, começando a cobrar milhões de dólares para usar suas interfaces de programação de aplicativos ou APIs — os gateways técnicos pelos quais outros aplicativos e programas de computador interagem com redes sociais.

Algumas empresas estão sendo proativas em assinar acordos com empresas de IA para licenciar seu conteúdo por uma taxa. Na quinta-feira, a agência americana de notícias Associated Press concordou em licenciar seu arquivo de reportagens de notícias datadas desde 1985 para a OpenAI. A organização de notícias terá acesso à tecnologia da OpenAI para experimentar seu uso em seu próprio trabalho como parte do acordo.

Uma declaração de junho divulgada pela Digital Content Next, um grupo de comércio que inclui o New York Times e The Washington Post entre outros publishers online, afirmou que o uso de artigos de notícias protegidos por direitos autorais em dados de treinamento de IA “provavelmente seria considerado muito além do escopo de uso justo conforme estabelecido na lei de direitos autorais.”

“Profissionais criativos ao redor do mundo usam o ChatGPT como parte de seu processo criativo e procuramos ativamente seus feedbacks sobre nossas ferramentas desde o primeiro dia”, disse Niko Felix, um porta-voz da OpenAI. “O ChatGPT é treinado em conteúdo licenciado, conteúdo publicamente disponível e conteúdo criado por treinadores de IA humanos e usuários.”

Porta-vozes do Facebook e Microsoft recusaram-se a comentar. Um porta-voz da Stability AI não retornou um pedido de comentário.

Práticas de treinamento de IA

“Há anos deixamos claro que usamos dados de fontes públicas (como informações publicadas na web aberta e conjuntos de dados públicos) para treinar os modelos de IA por trás de serviços como o Google Translate”, disse Halimah DeLaine Prado, conselheira geral do Google. “A lei americana apoia o uso de informações públicas para criar novos usos benéficos e estamos ansiosos para refutar essas alegações infundadas.”

O uso justo é uma forte defesa para as empresas de IA, porque a maioria das saídas dos modelos de IA não se assemelha explicitamente ao trabalho de humanos específicos, disse Sawicki, o professor de Direito especializado em direitos autorais. Mas, se os criadores processando as empresas de IA conseguirem mostrar exemplos suficientes de saídas de IA que são muito semelhantes às suas próprias obras, eles terão um argumento sólido de que seus direitos autorais estão sendo violados, disse ele.

As empresas poderiam evitar isso construindo filtros em seus bots para garantir que eles não gerem nada que seja muito semelhante a uma obra de arte existente, disse Sawicki. O YouTube, por exemplo, já usa tecnologia para detectar quando obras protegidas por direitos autorais são enviadas para seu site e automaticamente as retira. Em teoria, as empresas de IA poderiam construir algoritmos que poderiam identificar saídas que são altamente semelhantes à arte, música ou escrita existentes.

As técnicas de ciência da computação que permitem a IA “generativa” moderna foram teorizadas por décadas, mas só foi quando grandes empresas de tecnologia como Google, Facebook e Microsoft combinaram seus datacenters massivos de computadores poderosos com as enormes quantidades de dados que coletaram da internet aberta que os bots começaram a mostrar capacidades impressionantes.

Ao processar bilhões de sentenças e imagens legendadas, as empresas criaram “modelos amplos de linguagem” (LLM, na sigla em inglês), capazes de prever qual a coisa lógica a dizer ou desenhar em resposta a qualquer estímulo, com base em sua compreensão de toda a escrita e imagens que ingeriram.

No futuro, as empresas de IA usarão conjuntos de dados mais curados e controlados para treinar seus modelos de IA, e a prática de jogar montanhas de dados não filtrados coletados da internet aberta será vista como “arcaica”, disse Margaret Mitchell, cientista-chefe de ética na startup de IA Hugging Face. Além dos problemas de direitos autorais, o uso de dados da web aberta também introduz possíveis vieses nos chatbots.

“É uma abordagem tão tola e não científica, sem mencionar uma abordagem que infringe os direitos das pessoas”, disse Mitchell. “Todo o sistema de coleta de dados precisa mudar e é uma pena que precise mudar por meio de processos judiciais, mas é frequentemente assim que a tecnologia funciona.”

Mitchell diz que não ficaria surpresa se a OpenAI tivesse que excluir completamente um de seus modelos até o final do ano por causa de processos ou novas regulamentações.

Todo o sistema de coleta de dados precisa mudar, e é uma pena que precise mudar por meio de processos judiciais, mas é frequentemente assim que a tecnologia funciona

Margaret Mitchell, cientista-chefe de ética na startup de IA Hugging Face

OpenAI, Google e Microsoft não divulgam informações sobre quais dados usam para treinar seus modelos, dizendo que isso poderia permitir que pessoas mal-intencionadas replicem seu trabalho e usem as IAs para fins maliciosos.

Uma análise do Post de uma versão mais antiga do principal modelo de aprendizado de linguagem da OpenAI mostrou que a empresa usou dados de sites de notícias, Wikipédia e um notório banco de dados de livros pirateados que desde então foi apreendido pelo Departamento de Justiça.

Não saber exatamente o que entra nos modelos torna ainda mais difícil para artistas e escritores obterem compensação pelo seu trabalho, disse Ortiz, a ilustradora, durante a audiência no Senado.

“Precisamos garantir que haja transparência clara”, disse Ortiz. “Essa é uma das bases iniciais para que artistas e outros indivíduos possam obter consentimento, crédito e compensação.” / TRADUÇÃO POR GUILHERME GUERRA

Raspagem de dados

“A questão da IA generativa é realmente difícil”, ele disse.

A batalha sobre quem se beneficiará da IA já está ficando acirrada.

Tivemos várias entidades tentando coletar todos os tuítes já feitos

Elon Musk, dono do Twitter

Porta-vozes do Facebook e Microsoft recusaram-se a comentar. Um porta-voz da Stability AI não retornou um pedido de comentário.

Práticas de treinamento de IA

Mitchell diz que não ficaria surpresa se a OpenAI tivesse que excluir completamente um de seus modelos até o final do ano por causa de processos ou novas regulamentações.

Todo o sistema de coleta de dados precisa mudar, e é uma pena que precise mudar por meio de processos judiciais, mas é frequentemente assim que a tecnologia funciona

Margaret Mitchell, cientista-chefe de ética na startup de IA Hugging Face

Não saber exatamente o que entra nos modelos torna ainda mais difícil para artistas e escritores obterem compensação pelo seu trabalho, disse Ortiz, a ilustradora, durante a audiência no Senado.

Artistas lutam para receber por direito autoral após IAs aprenderem com seus trabalhos

Um movimento crescente de artistas e autores está processando empresas de tecnologia por treinarem IA em seu trabalho sem crédito ou pagamento

Leia mais

Raspagem de dados

Práticas de treinamento de IA

Leia mais

Raspagem de dados

Práticas de treinamento de IA

Leia mais

Raspagem de dados

Práticas de treinamento de IA

Artistas lutam para receber por direito autoral após IAs aprenderem com seus trabalhos

Um movimento crescente de artistas e autores está processando empresas de tecnologia por treinarem IA em seu trabalho sem crédito ou pagamento

Leia mais

Raspagem de dados

Práticas de treinamento de IA

Leia mais

Raspagem de dados

Práticas de treinamento de IA

Leia mais

Raspagem de dados

Práticas de treinamento de IA

Atualizamos nossa política de cookies