Zuckerberg permitiu que a Meta violasse direitos autorais para treinar suas IAs, acusa processo

Documentos do Tribunal Distrital dos Estados Unidos para o distrito da Carolina do Norte indicam que executivo autorizou o uso de uma coleção de obras literárias e acadêmicas da LibGen no treinamento dos modelos Llama; empresa alega estar protegida pela doutrina do “uso justo”

PUBLICIDADE

Foto do author João Pedro Adania
Por João Pedro Adania
Atualização:

Alvo de um processo por violar direitos autorais, a Meta usou material pirata no treinamento de seu modelo de inteligência artificial (IA), a Llama. Advogados de acusação alegam que o próprio CEO Mark Zuckerberg deu sinal verde à equipe por trás do uso indevido de conteúdo, segundo o site TechCrunch. A empresa diz estar protegida pela “doutrina do uso justo”, na qual permite a utilização desse material com a premissa de criar de algo novo.

Nessa disputa conhecida como Kandrey vs Meta, estão envolvidos nomes como a comediante e roteirista do The Sarah Silverman Program, Sarah Silverman e o escritor do Entre o Mundo e Eu (2015), Ta-Nehisi Coates. Documentos apresentados ao Tribunal Distrital dos Estados Unidos ao distrito da Carolina do Norte revelam que Zuckerberg liberou a utilização de um conjunto de material literário e acadêmico da LibGen para treinar os modelos Llama.

A estratégia de apagar os rastros do conteúdo seguia um roteiro criado por um dos engenheiros da Meta onde palavras como “copyright” dos arquivos acessados eram apagadas. (Photo by Brendan SMIALOWSKI / AFP) Foto: BRENDAN SMIALOWSKI

PUBLICIDADE

O problema é que a LibGen, por sua vez, não tem direito sobre nenhuma das obras disponíveis. Em defesa, a plataforma se descreve como um “agregador de links”. Ou seja: ela não hospeda o conteúdo, mas fornece links que direcionam os usuários para locais onde os arquivos podem ser baixados.

No meio dos conteúdos piratas, há obras das editoras de livros didáticos Cengage Learning, Macmillan Learning, McGraw Hill, and Pearson Education.

Publicidade

A LibGen também frequenta os tribunais com frequência - multas que somam mais algumas dezenas de milhões de dólares já foram aplicadas e seu fechamento já foi determinado pela Justiça dos EUA. Tudo por causa de infrações de direitos autorais. E aqui um detalhe: o processo revela que a Meta usou Torrent (um protocolo de compartilhamento de arquivos sem um servidor central) para acessar a biblioteca digital, o que configura uma segunda violação de direitos.

De acordo com a acusação, funcionários da gigante alertaram que o LibGen era “um conjunto de dados que sabemos ser pirata”, no entanto Mark Zuckerberg deixou explicito a intenção de usar os dados no treinamento da IA.

O processo também menciona um documento que circulou entre diretores da área de IA da Meta, no qual há a explicita ordem de usar o conteúdo ilícito. Além disso, a empresa teria tentado encobrir a infração ao remover dados de atribuição ao LibGen.

A estratégia de apagar os rastros do conteúdo seria um roteiro criado por um dos engenheiros da Meta, Nikolay Bashlykov, onde palavras como “copyright” dos arquivos acessados eram apagadas. Segundo a acusação, isso indica que a empresa não só usava os dados para treinamento de modelos de linguagem, mas também tinham a intenção de ocultar a violação.

Publicidade

O processo se tornou público porque o juiz Thomas Hixson rejeitou um pedido de sigilo feito pela gigante, no qual, segundo o magistrado, não visava proteger informações sensíveis, mas sim evitar publicidade negativa.

No último ano, empresas desenvolvedoras de IA viraram alvo de processos sobre o uso sem autorização de obras protegidas para o treinamento de grandes modelos. E na maioria das vezes, réus como a Meta baseiam suas defesas na mesma “doutrina do uso justo”.

Casos como esse já aconteceram antes, por exemplo quando o jornal americano The New York Times abriu um processo judicial contra a OpenAI, dona do ChatGPT, e a Microsoft por violação de direitos autorias em 2023.

O jornal americano The New York Times abriu um processo judicial contra a OpenAI, dona do ChatGPT, e a Microsoft por violação de direitos autorias em 2023. (Grant Hindsley/The New York Times) Foto: Grant Hindsley/Grant Hindsley/NYT

A ação pedia um julgamento com júri e só foi protocolada depois de meses de negociações malsucedidas entre representantes dos setores de tecnologia e comunicação. Criadores de série Game of Thrones também processaram a empresa de Sam Altman. Em 2023, George RR Martin e John Grisham alegram que os direitos autorais delas foram violados para trinar o modelo de IA da companhia.

De forma semelhante, uma ação judicial também movida por Sarah Silverman, além de uma carta aberta assinada pelos autores Margaret Atwood e Philip Pullman, em julho daquele ano. Na ocasião, eles pediam às empresas de IA compensação financeira pelo uso de seus materiais.

Comentários

Os comentários são exclusivos para assinantes do Estadão.