ChatGPT vive à sombra de um grande escândalo de dados; entenda

A inteligência artificial (IA) conquistou o mundo nos últimos meses graças aos avanços dos grandes modelos de linguagem (LLM), que abastecem serviços populares como o ChatGPT. À primeira vista, a tecnologia pode parecer mágica, mas, por trás dela, estão imensos volumes de informações que turbinam as respostas espertas e eloquentes. No entanto, esse modelo pode estar à sombra de um grande escândalo de dados.

Sistemas de IA generativa, como o ChatGPT, são grandes máquinas probabilísticas: eles analisam quantidades gigantes de texto e fazem conexões entre termos (algo conhecido como parâmetros) para gerar texto inédito quando solicitados - quanto maior a quantidade de parâmetros, mais sofisticada tende a ser a IA. A primeira versão do ChatGPT, lançada em novembro passado, tinha 175 bilhões de parâmetros.

Movimentação de autoridades

Isso vem gerando movimentação de reguladores em diferentes países. Em março, a Itália suspendeu o ChatGPT por preocupações de violação das leis de proteção de dados. Em maio, reguladores canadenses iniciaram uma investigação contra a OpenAI sobre a coleta e uso de dados. Nesta semana, a Federal Trade Comission (FTC) dos EUA passou a investigar se o serviço causou danos a consumidores e se a OpenAI realizou práticas “injustas ou enganosas” em termos de privacidade e segurança de dados. Segundo o órgão, essas práticas podem ter causado “dano reputacional” às pessoas.

continua após a publicidade

A Rede Iberoamericana de proteção de Dados (RIPD), que reúne 16 autoridades de dados de 12 países, incluindo o Brasil, também decidiu investigar as práticas da OpenAI. Por aqui, o Estadão procurou a Autoridade Nacional de Proteção de Dados (ANPD), que afirmou em nota que está “realizando um estudo preliminar que, embora não dedicado exclusivamente ao ChatGPT, tem por objetivo fundamentar os conceitos relacionados aos modelos generativos de inteligência artificial, bem como identificar potenciais riscos à privacidade e proteção de dados”. Anteriormente, a ANPD havia publicado um documento no qual ela indica querer ser a autoridade fiscalizatória e regulatória sobre IA.

As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas

Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec)

Luca Belli, professor de Direito e coordenador do centro de tecnologia e sociedade da Fundação Getulio Vargas (FGV) do Rio, peticionou a ANPD sobre o uso de dados por grandes modelos de IA. “Como titular de dados pessoais, eu tenho direito de saber como a OpenAI gera respostas sobre mim. É evidente que o ChatGPT criou resultados a partir de um enorme banco de dados que incluem também minhas informações pessoais”, diz ele ao Estadão. “Existe consentimento para que usem meus dados pessoais? Não. Existe uma base legal para que usem os meus dados para treinar modelos de IA? Não.”

continua após a publicidade

Belli afirma que não teve resposta da ANPD. Perguntado sobre o assunto pela reportagem, o órgão não respondeu - também não indicou se está trabalhando com o RIPD a respeito do tema.

A agitação lembra o período que antecedeu o escândalo Cambridge Analytica, no qual os dados de 87 milhões de pessoas no Facebook foram usados indevidamente. Especialistas em privacidade e proteção de dados apontavam para o uso problemático de dados em grandes plataformas, mas a ação de autoridades não deu conta do problema.

“As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas”, afirma Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec).

continua após a publicidade

Não é só privacidade

Ao contrário, porém, do caso do Facebook, o uso indevido de dados por LLMs pode gerar não apenas um escândalo de privacidade, mas também de direitos autorais. Nos EUA, os escritores Mona Awad e Paul Tremblay entraram com um processo contra a OpenAI por acreditarem que seus livros foram usados para treinar o ChatGPT.

Além disso, artistas visuais também temem que suas obras alimentem geradores de imagens, como o DALL-E 2, Midjourney e Stable Diffusion. Nesta semana, a OpenAI fechou um acordo com a agência Associated Press para usar seus textos jornalísticos no treinamento de seus modelos. É um passo ainda tímido diante do que a companhia já construiu.

continua após a publicidade

“Veremos no futuro uma enxurrada de ações coletivas disputando os limites de uso de dados. Privacidade e direito autoral são ideias muito próximas”, afirma Rafael Zanatta, diretor da Associação Data Privacy Brasil. Para ele, a pauta de direito autoral tem mais apelo e deverá pressionar mais as gigantes da tecnologia.

Google mudou termos de uso para usar dados públicos na web para treinar sistemas de IA Foto: Josh Edelson/AFP

Zanatta argumenta que os grandes modelos de IA colocam em xeque a ideia de que dados públicos na internet são recursos disponíveis para uso independentemente do contexto em que são aplicados. “É preciso respeitar a integridade contextual. Por exemplo, quem postou uma foto no Fotolog anos atrás não imaginava e nem permitiu que a sua imagem fosse usada para treinar um banco de IA”, afirma.

Para tentar ganhar alguma segurança jurídica, o Google, por exemplo, alterou os seus termos de uso no dia 1.º de julho para indicar que dados “disponíveis na web” poderão ser usados para treinar sistemas de IA.

O documento diz: “Podemos, por exemplo, coletar informações disponíveis publicamente online ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem. Ou, caso as informações sobre sua empresa apareçam em um site, podemos indexá-las e exibi-las nos Serviços do Google.” Procurada pelo Estadão, a gigante não comenta o assunto.

Até aqui, os gigantes da IA tratam seus bancos de dados quase como a “receita da Coca-Cola” - ou seja, um segredo industrial. No entanto, para quem acompanha o tema, isso não pode ser desculpa para ausência de salvaguardas e transparência.

“A Anvisa não precisa saber a fórmula específica da Coca-Cola. Ela precisa saber se, na construção e regulação do produto, foram seguidas regras básicas e se o produto causa algum dano ou não à população. Se causa dano, precisa ter um alerta. Há níveis de transparência que podem ser respeitados e que não entregam o ouro das tecnologias”, afirma Cruz.

Movimentação de autoridades

As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas

Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec)

Belli afirma que não teve resposta da ANPD. Perguntado sobre o assunto pela reportagem, o órgão não respondeu - também não indicou se está trabalhando com o RIPD a respeito do tema.

Não é só privacidade

Google mudou termos de uso para usar dados públicos na web para treinar sistemas de IA Foto: Josh Edelson/AFP

ChatGPT vive à sombra de um grande escândalo de dados; entenda

Origem incerta de informações que alimentam grandes sistemas de inteligência artificial causam preocupações em especialistas e autoridades

Leia também

Movimentação de autoridades

Não é só privacidade

Leia também

Movimentação de autoridades

Não é só privacidade

Leia também

Movimentação de autoridades

Não é só privacidade

ChatGPT vive à sombra de um grande escândalo de dados; entenda

Origem incerta de informações que alimentam grandes sistemas de inteligência artificial causam preocupações em especialistas e autoridades

Leia também

Movimentação de autoridades

Não é só privacidade

Leia também

Movimentação de autoridades

Não é só privacidade

Leia também

Movimentação de autoridades

Não é só privacidade

Atualizamos nossa política de cookies