ChatGPT vive à sombra de um grande escândalo de dados; entenda


Origem incerta de informações que alimentam grandes sistemas de inteligência artificial causam preocupações em especialistas e autoridades

Por Bruno Romani

A inteligência artificial (IA) conquistou o mundo nos últimos meses graças aos avanços dos grandes modelos de linguagem (LLM), que abastecem serviços populares como o ChatGPT. À primeira vista, a tecnologia pode parecer mágica, mas, por trás dela, estão imensos volumes de informações que turbinam as respostas espertas e eloquentes. No entanto, esse modelo pode estar à sombra de um grande escândalo de dados.

Sistemas de IA generativa, como o ChatGPT, são grandes máquinas probabilísticas: eles analisam quantidades gigantes de texto e fazem conexões entre termos (algo conhecido como parâmetros) para gerar texto inédito quando solicitados - quanto maior a quantidade de parâmetros, mais sofisticada tende a ser a IA. A primeira versão do ChatGPT, lançada em novembro passado, tinha 175 bilhões de parâmetros.

continua após a publicidade

O que começa a assombrar autoridades e especialistas é a natureza dos dados que estão sendo usados para treinar esses sistemas - é difícil saber a origem das informações e o que exatamente está alimentando as máquinas. O artigo científico do GPT-3, primeira versão do “cérebro” do ChatGPT, dá uma ideia do que foi usado. Foram usados os pacotes Common Crawl e WebText2 (pacotes de textos filtrados de internet e redes sociais), Books1 e Books2 (pacotes de livros disponíveis na web) e a versão em inglês da Wikipédia.

Ainda que os pacotes tenham sido revelados, não se sabe exatamente o que os compõe - ninguém sabe dizer se há um post de um blog pessoal qualquer ou de uma rede social alimentando o modelo, por exemplo. O jornal Washington Post analisou um pacote chamado C4, usado para treinar os LLMs T5, do Google, e o LLaMA, do Facebook. Encontrou 15 milhões de sites, que incluem veículos jornalísticos, fóruns de jogos, repositórios piratas de livros e dois bancos de dados que hospedavam informações estaduais de eleitores nos EUA.

Origem das bases de dados dos grandes modelos de IA geram preocupações Foto: Joel Saget/AFP
continua após a publicidade

Com a intensa competição no mercado de IA generativa, a transparência sobre o uso de dados piorou. A OpenAI não revelou quais bases de dados usou para treinar o GPT-4, o atual cérebro do ChatGPT. Ao falar sobre o Bard, chatbot que chegou recentemente ao Brasil, o Google também adotou um discurso vago de que treina seus modelos com “informações disponibilizadas publicamente na internet”.

Movimentação de autoridades

Isso vem gerando movimentação de reguladores em diferentes países. Em março, a Itália suspendeu o ChatGPT por preocupações de violação das leis de proteção de dados. Em maio, reguladores canadenses iniciaram uma investigação contra a OpenAI sobre a coleta e uso de dados. Nesta semana, a Federal Trade Comission (FTC) dos EUA passou a investigar se o serviço causou danos a consumidores e se a OpenAI realizou práticas “injustas ou enganosas” em termos de privacidade e segurança de dados. Segundo o órgão, essas práticas podem ter causado “dano reputacional” às pessoas.

continua após a publicidade

A Rede Iberoamericana de proteção de Dados (RIPD), que reúne 16 autoridades de dados de 12 países, incluindo o Brasil, também decidiu investigar as práticas da OpenAI. Por aqui, o Estadão procurou a Autoridade Nacional de Proteção de Dados (ANPD), que afirmou em nota que está “realizando um estudo preliminar que, embora não dedicado exclusivamente ao ChatGPT, tem por objetivo fundamentar os conceitos relacionados aos modelos generativos de inteligência artificial, bem como identificar potenciais riscos à privacidade e proteção de dados”. Anteriormente, a ANPD havia publicado um documento no qual ela indica querer ser a autoridade fiscalizatória e regulatória sobre IA.

As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas

Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec)

Luca Belli, professor de Direito e coordenador do centro de tecnologia e sociedade da Fundação Getulio Vargas (FGV) do Rio, peticionou a ANPD sobre o uso de dados por grandes modelos de IA. “Como titular de dados pessoais, eu tenho direito de saber como a OpenAI gera respostas sobre mim. É evidente que o ChatGPT criou resultados a partir de um enorme banco de dados que incluem também minhas informações pessoais”, diz ele ao Estadão. “Existe consentimento para que usem meus dados pessoais? Não. Existe uma base legal para que usem os meus dados para treinar modelos de IA? Não.”

continua após a publicidade

Belli afirma que não teve resposta da ANPD. Perguntado sobre o assunto pela reportagem, o órgão não respondeu - também não indicou se está trabalhando com o RIPD a respeito do tema.

A agitação lembra o período que antecedeu o escândalo Cambridge Analytica, no qual os dados de 87 milhões de pessoas no Facebook foram usados indevidamente. Especialistas em privacidade e proteção de dados apontavam para o uso problemático de dados em grandes plataformas, mas a ação de autoridades não deu conta do problema.

“As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas”, afirma Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec).

continua após a publicidade

Não é só privacidade

Ao contrário, porém, do caso do Facebook, o uso indevido de dados por LLMs pode gerar não apenas um escândalo de privacidade, mas também de direitos autorais. Nos EUA, os escritores Mona Awad e Paul Tremblay entraram com um processo contra a OpenAI por acreditarem que seus livros foram usados para treinar o ChatGPT.

Além disso, artistas visuais também temem que suas obras alimentem geradores de imagens, como o DALL-E 2, Midjourney e Stable Diffusion. Nesta semana, a OpenAI fechou um acordo com a agência Associated Press para usar seus textos jornalísticos no treinamento de seus modelos. É um passo ainda tímido diante do que a companhia já construiu.

continua após a publicidade

“Veremos no futuro uma enxurrada de ações coletivas disputando os limites de uso de dados. Privacidade e direito autoral são ideias muito próximas”, afirma Rafael Zanatta, diretor da Associação Data Privacy Brasil. Para ele, a pauta de direito autoral tem mais apelo e deverá pressionar mais as gigantes da tecnologia.

Google mudou termos de uso para usar dados públicos na web para treinar sistemas de IA Foto: Josh Edelson/AFP

Zanatta argumenta que os grandes modelos de IA colocam em xeque a ideia de que dados públicos na internet são recursos disponíveis para uso independentemente do contexto em que são aplicados. “É preciso respeitar a integridade contextual. Por exemplo, quem postou uma foto no Fotolog anos atrás não imaginava e nem permitiu que a sua imagem fosse usada para treinar um banco de IA”, afirma.

Para tentar ganhar alguma segurança jurídica, o Google, por exemplo, alterou os seus termos de uso no dia 1.º de julho para indicar que dados “disponíveis na web” poderão ser usados para treinar sistemas de IA.

O documento diz: “Podemos, por exemplo, coletar informações disponíveis publicamente online ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem. Ou, caso as informações sobre sua empresa apareçam em um site, podemos indexá-las e exibi-las nos Serviços do Google.” Procurada pelo Estadão, a gigante não comenta o assunto.

Até aqui, os gigantes da IA tratam seus bancos de dados quase como a “receita da Coca-Cola” - ou seja, um segredo industrial. No entanto, para quem acompanha o tema, isso não pode ser desculpa para ausência de salvaguardas e transparência.

“A Anvisa não precisa saber a fórmula específica da Coca-Cola. Ela precisa saber se, na construção e regulação do produto, foram seguidas regras básicas e se o produto causa algum dano ou não à população. Se causa dano, precisa ter um alerta. Há níveis de transparência que podem ser respeitados e que não entregam o ouro das tecnologias”, afirma Cruz.

A inteligência artificial (IA) conquistou o mundo nos últimos meses graças aos avanços dos grandes modelos de linguagem (LLM), que abastecem serviços populares como o ChatGPT. À primeira vista, a tecnologia pode parecer mágica, mas, por trás dela, estão imensos volumes de informações que turbinam as respostas espertas e eloquentes. No entanto, esse modelo pode estar à sombra de um grande escândalo de dados.

Sistemas de IA generativa, como o ChatGPT, são grandes máquinas probabilísticas: eles analisam quantidades gigantes de texto e fazem conexões entre termos (algo conhecido como parâmetros) para gerar texto inédito quando solicitados - quanto maior a quantidade de parâmetros, mais sofisticada tende a ser a IA. A primeira versão do ChatGPT, lançada em novembro passado, tinha 175 bilhões de parâmetros.

O que começa a assombrar autoridades e especialistas é a natureza dos dados que estão sendo usados para treinar esses sistemas - é difícil saber a origem das informações e o que exatamente está alimentando as máquinas. O artigo científico do GPT-3, primeira versão do “cérebro” do ChatGPT, dá uma ideia do que foi usado. Foram usados os pacotes Common Crawl e WebText2 (pacotes de textos filtrados de internet e redes sociais), Books1 e Books2 (pacotes de livros disponíveis na web) e a versão em inglês da Wikipédia.

Ainda que os pacotes tenham sido revelados, não se sabe exatamente o que os compõe - ninguém sabe dizer se há um post de um blog pessoal qualquer ou de uma rede social alimentando o modelo, por exemplo. O jornal Washington Post analisou um pacote chamado C4, usado para treinar os LLMs T5, do Google, e o LLaMA, do Facebook. Encontrou 15 milhões de sites, que incluem veículos jornalísticos, fóruns de jogos, repositórios piratas de livros e dois bancos de dados que hospedavam informações estaduais de eleitores nos EUA.

Origem das bases de dados dos grandes modelos de IA geram preocupações Foto: Joel Saget/AFP

Com a intensa competição no mercado de IA generativa, a transparência sobre o uso de dados piorou. A OpenAI não revelou quais bases de dados usou para treinar o GPT-4, o atual cérebro do ChatGPT. Ao falar sobre o Bard, chatbot que chegou recentemente ao Brasil, o Google também adotou um discurso vago de que treina seus modelos com “informações disponibilizadas publicamente na internet”.

Movimentação de autoridades

Isso vem gerando movimentação de reguladores em diferentes países. Em março, a Itália suspendeu o ChatGPT por preocupações de violação das leis de proteção de dados. Em maio, reguladores canadenses iniciaram uma investigação contra a OpenAI sobre a coleta e uso de dados. Nesta semana, a Federal Trade Comission (FTC) dos EUA passou a investigar se o serviço causou danos a consumidores e se a OpenAI realizou práticas “injustas ou enganosas” em termos de privacidade e segurança de dados. Segundo o órgão, essas práticas podem ter causado “dano reputacional” às pessoas.

A Rede Iberoamericana de proteção de Dados (RIPD), que reúne 16 autoridades de dados de 12 países, incluindo o Brasil, também decidiu investigar as práticas da OpenAI. Por aqui, o Estadão procurou a Autoridade Nacional de Proteção de Dados (ANPD), que afirmou em nota que está “realizando um estudo preliminar que, embora não dedicado exclusivamente ao ChatGPT, tem por objetivo fundamentar os conceitos relacionados aos modelos generativos de inteligência artificial, bem como identificar potenciais riscos à privacidade e proteção de dados”. Anteriormente, a ANPD havia publicado um documento no qual ela indica querer ser a autoridade fiscalizatória e regulatória sobre IA.

As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas

Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec)

Luca Belli, professor de Direito e coordenador do centro de tecnologia e sociedade da Fundação Getulio Vargas (FGV) do Rio, peticionou a ANPD sobre o uso de dados por grandes modelos de IA. “Como titular de dados pessoais, eu tenho direito de saber como a OpenAI gera respostas sobre mim. É evidente que o ChatGPT criou resultados a partir de um enorme banco de dados que incluem também minhas informações pessoais”, diz ele ao Estadão. “Existe consentimento para que usem meus dados pessoais? Não. Existe uma base legal para que usem os meus dados para treinar modelos de IA? Não.”

Belli afirma que não teve resposta da ANPD. Perguntado sobre o assunto pela reportagem, o órgão não respondeu - também não indicou se está trabalhando com o RIPD a respeito do tema.

A agitação lembra o período que antecedeu o escândalo Cambridge Analytica, no qual os dados de 87 milhões de pessoas no Facebook foram usados indevidamente. Especialistas em privacidade e proteção de dados apontavam para o uso problemático de dados em grandes plataformas, mas a ação de autoridades não deu conta do problema.

“As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas”, afirma Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec).

Não é só privacidade

Ao contrário, porém, do caso do Facebook, o uso indevido de dados por LLMs pode gerar não apenas um escândalo de privacidade, mas também de direitos autorais. Nos EUA, os escritores Mona Awad e Paul Tremblay entraram com um processo contra a OpenAI por acreditarem que seus livros foram usados para treinar o ChatGPT.

Além disso, artistas visuais também temem que suas obras alimentem geradores de imagens, como o DALL-E 2, Midjourney e Stable Diffusion. Nesta semana, a OpenAI fechou um acordo com a agência Associated Press para usar seus textos jornalísticos no treinamento de seus modelos. É um passo ainda tímido diante do que a companhia já construiu.

“Veremos no futuro uma enxurrada de ações coletivas disputando os limites de uso de dados. Privacidade e direito autoral são ideias muito próximas”, afirma Rafael Zanatta, diretor da Associação Data Privacy Brasil. Para ele, a pauta de direito autoral tem mais apelo e deverá pressionar mais as gigantes da tecnologia.

Google mudou termos de uso para usar dados públicos na web para treinar sistemas de IA Foto: Josh Edelson/AFP

Zanatta argumenta que os grandes modelos de IA colocam em xeque a ideia de que dados públicos na internet são recursos disponíveis para uso independentemente do contexto em que são aplicados. “É preciso respeitar a integridade contextual. Por exemplo, quem postou uma foto no Fotolog anos atrás não imaginava e nem permitiu que a sua imagem fosse usada para treinar um banco de IA”, afirma.

Para tentar ganhar alguma segurança jurídica, o Google, por exemplo, alterou os seus termos de uso no dia 1.º de julho para indicar que dados “disponíveis na web” poderão ser usados para treinar sistemas de IA.

O documento diz: “Podemos, por exemplo, coletar informações disponíveis publicamente online ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem. Ou, caso as informações sobre sua empresa apareçam em um site, podemos indexá-las e exibi-las nos Serviços do Google.” Procurada pelo Estadão, a gigante não comenta o assunto.

Até aqui, os gigantes da IA tratam seus bancos de dados quase como a “receita da Coca-Cola” - ou seja, um segredo industrial. No entanto, para quem acompanha o tema, isso não pode ser desculpa para ausência de salvaguardas e transparência.

“A Anvisa não precisa saber a fórmula específica da Coca-Cola. Ela precisa saber se, na construção e regulação do produto, foram seguidas regras básicas e se o produto causa algum dano ou não à população. Se causa dano, precisa ter um alerta. Há níveis de transparência que podem ser respeitados e que não entregam o ouro das tecnologias”, afirma Cruz.

A inteligência artificial (IA) conquistou o mundo nos últimos meses graças aos avanços dos grandes modelos de linguagem (LLM), que abastecem serviços populares como o ChatGPT. À primeira vista, a tecnologia pode parecer mágica, mas, por trás dela, estão imensos volumes de informações que turbinam as respostas espertas e eloquentes. No entanto, esse modelo pode estar à sombra de um grande escândalo de dados.

Sistemas de IA generativa, como o ChatGPT, são grandes máquinas probabilísticas: eles analisam quantidades gigantes de texto e fazem conexões entre termos (algo conhecido como parâmetros) para gerar texto inédito quando solicitados - quanto maior a quantidade de parâmetros, mais sofisticada tende a ser a IA. A primeira versão do ChatGPT, lançada em novembro passado, tinha 175 bilhões de parâmetros.

O que começa a assombrar autoridades e especialistas é a natureza dos dados que estão sendo usados para treinar esses sistemas - é difícil saber a origem das informações e o que exatamente está alimentando as máquinas. O artigo científico do GPT-3, primeira versão do “cérebro” do ChatGPT, dá uma ideia do que foi usado. Foram usados os pacotes Common Crawl e WebText2 (pacotes de textos filtrados de internet e redes sociais), Books1 e Books2 (pacotes de livros disponíveis na web) e a versão em inglês da Wikipédia.

Ainda que os pacotes tenham sido revelados, não se sabe exatamente o que os compõe - ninguém sabe dizer se há um post de um blog pessoal qualquer ou de uma rede social alimentando o modelo, por exemplo. O jornal Washington Post analisou um pacote chamado C4, usado para treinar os LLMs T5, do Google, e o LLaMA, do Facebook. Encontrou 15 milhões de sites, que incluem veículos jornalísticos, fóruns de jogos, repositórios piratas de livros e dois bancos de dados que hospedavam informações estaduais de eleitores nos EUA.

Origem das bases de dados dos grandes modelos de IA geram preocupações Foto: Joel Saget/AFP

Com a intensa competição no mercado de IA generativa, a transparência sobre o uso de dados piorou. A OpenAI não revelou quais bases de dados usou para treinar o GPT-4, o atual cérebro do ChatGPT. Ao falar sobre o Bard, chatbot que chegou recentemente ao Brasil, o Google também adotou um discurso vago de que treina seus modelos com “informações disponibilizadas publicamente na internet”.

Movimentação de autoridades

Isso vem gerando movimentação de reguladores em diferentes países. Em março, a Itália suspendeu o ChatGPT por preocupações de violação das leis de proteção de dados. Em maio, reguladores canadenses iniciaram uma investigação contra a OpenAI sobre a coleta e uso de dados. Nesta semana, a Federal Trade Comission (FTC) dos EUA passou a investigar se o serviço causou danos a consumidores e se a OpenAI realizou práticas “injustas ou enganosas” em termos de privacidade e segurança de dados. Segundo o órgão, essas práticas podem ter causado “dano reputacional” às pessoas.

A Rede Iberoamericana de proteção de Dados (RIPD), que reúne 16 autoridades de dados de 12 países, incluindo o Brasil, também decidiu investigar as práticas da OpenAI. Por aqui, o Estadão procurou a Autoridade Nacional de Proteção de Dados (ANPD), que afirmou em nota que está “realizando um estudo preliminar que, embora não dedicado exclusivamente ao ChatGPT, tem por objetivo fundamentar os conceitos relacionados aos modelos generativos de inteligência artificial, bem como identificar potenciais riscos à privacidade e proteção de dados”. Anteriormente, a ANPD havia publicado um documento no qual ela indica querer ser a autoridade fiscalizatória e regulatória sobre IA.

As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas

Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec)

Luca Belli, professor de Direito e coordenador do centro de tecnologia e sociedade da Fundação Getulio Vargas (FGV) do Rio, peticionou a ANPD sobre o uso de dados por grandes modelos de IA. “Como titular de dados pessoais, eu tenho direito de saber como a OpenAI gera respostas sobre mim. É evidente que o ChatGPT criou resultados a partir de um enorme banco de dados que incluem também minhas informações pessoais”, diz ele ao Estadão. “Existe consentimento para que usem meus dados pessoais? Não. Existe uma base legal para que usem os meus dados para treinar modelos de IA? Não.”

Belli afirma que não teve resposta da ANPD. Perguntado sobre o assunto pela reportagem, o órgão não respondeu - também não indicou se está trabalhando com o RIPD a respeito do tema.

A agitação lembra o período que antecedeu o escândalo Cambridge Analytica, no qual os dados de 87 milhões de pessoas no Facebook foram usados indevidamente. Especialistas em privacidade e proteção de dados apontavam para o uso problemático de dados em grandes plataformas, mas a ação de autoridades não deu conta do problema.

“As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas”, afirma Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec).

Não é só privacidade

Ao contrário, porém, do caso do Facebook, o uso indevido de dados por LLMs pode gerar não apenas um escândalo de privacidade, mas também de direitos autorais. Nos EUA, os escritores Mona Awad e Paul Tremblay entraram com um processo contra a OpenAI por acreditarem que seus livros foram usados para treinar o ChatGPT.

Além disso, artistas visuais também temem que suas obras alimentem geradores de imagens, como o DALL-E 2, Midjourney e Stable Diffusion. Nesta semana, a OpenAI fechou um acordo com a agência Associated Press para usar seus textos jornalísticos no treinamento de seus modelos. É um passo ainda tímido diante do que a companhia já construiu.

“Veremos no futuro uma enxurrada de ações coletivas disputando os limites de uso de dados. Privacidade e direito autoral são ideias muito próximas”, afirma Rafael Zanatta, diretor da Associação Data Privacy Brasil. Para ele, a pauta de direito autoral tem mais apelo e deverá pressionar mais as gigantes da tecnologia.

Google mudou termos de uso para usar dados públicos na web para treinar sistemas de IA Foto: Josh Edelson/AFP

Zanatta argumenta que os grandes modelos de IA colocam em xeque a ideia de que dados públicos na internet são recursos disponíveis para uso independentemente do contexto em que são aplicados. “É preciso respeitar a integridade contextual. Por exemplo, quem postou uma foto no Fotolog anos atrás não imaginava e nem permitiu que a sua imagem fosse usada para treinar um banco de IA”, afirma.

Para tentar ganhar alguma segurança jurídica, o Google, por exemplo, alterou os seus termos de uso no dia 1.º de julho para indicar que dados “disponíveis na web” poderão ser usados para treinar sistemas de IA.

O documento diz: “Podemos, por exemplo, coletar informações disponíveis publicamente online ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem. Ou, caso as informações sobre sua empresa apareçam em um site, podemos indexá-las e exibi-las nos Serviços do Google.” Procurada pelo Estadão, a gigante não comenta o assunto.

Até aqui, os gigantes da IA tratam seus bancos de dados quase como a “receita da Coca-Cola” - ou seja, um segredo industrial. No entanto, para quem acompanha o tema, isso não pode ser desculpa para ausência de salvaguardas e transparência.

“A Anvisa não precisa saber a fórmula específica da Coca-Cola. Ela precisa saber se, na construção e regulação do produto, foram seguidas regras básicas e se o produto causa algum dano ou não à população. Se causa dano, precisa ter um alerta. Há níveis de transparência que podem ser respeitados e que não entregam o ouro das tecnologias”, afirma Cruz.

A inteligência artificial (IA) conquistou o mundo nos últimos meses graças aos avanços dos grandes modelos de linguagem (LLM), que abastecem serviços populares como o ChatGPT. À primeira vista, a tecnologia pode parecer mágica, mas, por trás dela, estão imensos volumes de informações que turbinam as respostas espertas e eloquentes. No entanto, esse modelo pode estar à sombra de um grande escândalo de dados.

Sistemas de IA generativa, como o ChatGPT, são grandes máquinas probabilísticas: eles analisam quantidades gigantes de texto e fazem conexões entre termos (algo conhecido como parâmetros) para gerar texto inédito quando solicitados - quanto maior a quantidade de parâmetros, mais sofisticada tende a ser a IA. A primeira versão do ChatGPT, lançada em novembro passado, tinha 175 bilhões de parâmetros.

O que começa a assombrar autoridades e especialistas é a natureza dos dados que estão sendo usados para treinar esses sistemas - é difícil saber a origem das informações e o que exatamente está alimentando as máquinas. O artigo científico do GPT-3, primeira versão do “cérebro” do ChatGPT, dá uma ideia do que foi usado. Foram usados os pacotes Common Crawl e WebText2 (pacotes de textos filtrados de internet e redes sociais), Books1 e Books2 (pacotes de livros disponíveis na web) e a versão em inglês da Wikipédia.

Ainda que os pacotes tenham sido revelados, não se sabe exatamente o que os compõe - ninguém sabe dizer se há um post de um blog pessoal qualquer ou de uma rede social alimentando o modelo, por exemplo. O jornal Washington Post analisou um pacote chamado C4, usado para treinar os LLMs T5, do Google, e o LLaMA, do Facebook. Encontrou 15 milhões de sites, que incluem veículos jornalísticos, fóruns de jogos, repositórios piratas de livros e dois bancos de dados que hospedavam informações estaduais de eleitores nos EUA.

Origem das bases de dados dos grandes modelos de IA geram preocupações Foto: Joel Saget/AFP

Com a intensa competição no mercado de IA generativa, a transparência sobre o uso de dados piorou. A OpenAI não revelou quais bases de dados usou para treinar o GPT-4, o atual cérebro do ChatGPT. Ao falar sobre o Bard, chatbot que chegou recentemente ao Brasil, o Google também adotou um discurso vago de que treina seus modelos com “informações disponibilizadas publicamente na internet”.

Movimentação de autoridades

Isso vem gerando movimentação de reguladores em diferentes países. Em março, a Itália suspendeu o ChatGPT por preocupações de violação das leis de proteção de dados. Em maio, reguladores canadenses iniciaram uma investigação contra a OpenAI sobre a coleta e uso de dados. Nesta semana, a Federal Trade Comission (FTC) dos EUA passou a investigar se o serviço causou danos a consumidores e se a OpenAI realizou práticas “injustas ou enganosas” em termos de privacidade e segurança de dados. Segundo o órgão, essas práticas podem ter causado “dano reputacional” às pessoas.

A Rede Iberoamericana de proteção de Dados (RIPD), que reúne 16 autoridades de dados de 12 países, incluindo o Brasil, também decidiu investigar as práticas da OpenAI. Por aqui, o Estadão procurou a Autoridade Nacional de Proteção de Dados (ANPD), que afirmou em nota que está “realizando um estudo preliminar que, embora não dedicado exclusivamente ao ChatGPT, tem por objetivo fundamentar os conceitos relacionados aos modelos generativos de inteligência artificial, bem como identificar potenciais riscos à privacidade e proteção de dados”. Anteriormente, a ANPD havia publicado um documento no qual ela indica querer ser a autoridade fiscalizatória e regulatória sobre IA.

As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas

Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec)

Luca Belli, professor de Direito e coordenador do centro de tecnologia e sociedade da Fundação Getulio Vargas (FGV) do Rio, peticionou a ANPD sobre o uso de dados por grandes modelos de IA. “Como titular de dados pessoais, eu tenho direito de saber como a OpenAI gera respostas sobre mim. É evidente que o ChatGPT criou resultados a partir de um enorme banco de dados que incluem também minhas informações pessoais”, diz ele ao Estadão. “Existe consentimento para que usem meus dados pessoais? Não. Existe uma base legal para que usem os meus dados para treinar modelos de IA? Não.”

Belli afirma que não teve resposta da ANPD. Perguntado sobre o assunto pela reportagem, o órgão não respondeu - também não indicou se está trabalhando com o RIPD a respeito do tema.

A agitação lembra o período que antecedeu o escândalo Cambridge Analytica, no qual os dados de 87 milhões de pessoas no Facebook foram usados indevidamente. Especialistas em privacidade e proteção de dados apontavam para o uso problemático de dados em grandes plataformas, mas a ação de autoridades não deu conta do problema.

“As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas”, afirma Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec).

Não é só privacidade

Ao contrário, porém, do caso do Facebook, o uso indevido de dados por LLMs pode gerar não apenas um escândalo de privacidade, mas também de direitos autorais. Nos EUA, os escritores Mona Awad e Paul Tremblay entraram com um processo contra a OpenAI por acreditarem que seus livros foram usados para treinar o ChatGPT.

Além disso, artistas visuais também temem que suas obras alimentem geradores de imagens, como o DALL-E 2, Midjourney e Stable Diffusion. Nesta semana, a OpenAI fechou um acordo com a agência Associated Press para usar seus textos jornalísticos no treinamento de seus modelos. É um passo ainda tímido diante do que a companhia já construiu.

“Veremos no futuro uma enxurrada de ações coletivas disputando os limites de uso de dados. Privacidade e direito autoral são ideias muito próximas”, afirma Rafael Zanatta, diretor da Associação Data Privacy Brasil. Para ele, a pauta de direito autoral tem mais apelo e deverá pressionar mais as gigantes da tecnologia.

Google mudou termos de uso para usar dados públicos na web para treinar sistemas de IA Foto: Josh Edelson/AFP

Zanatta argumenta que os grandes modelos de IA colocam em xeque a ideia de que dados públicos na internet são recursos disponíveis para uso independentemente do contexto em que são aplicados. “É preciso respeitar a integridade contextual. Por exemplo, quem postou uma foto no Fotolog anos atrás não imaginava e nem permitiu que a sua imagem fosse usada para treinar um banco de IA”, afirma.

Para tentar ganhar alguma segurança jurídica, o Google, por exemplo, alterou os seus termos de uso no dia 1.º de julho para indicar que dados “disponíveis na web” poderão ser usados para treinar sistemas de IA.

O documento diz: “Podemos, por exemplo, coletar informações disponíveis publicamente online ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem. Ou, caso as informações sobre sua empresa apareçam em um site, podemos indexá-las e exibi-las nos Serviços do Google.” Procurada pelo Estadão, a gigante não comenta o assunto.

Até aqui, os gigantes da IA tratam seus bancos de dados quase como a “receita da Coca-Cola” - ou seja, um segredo industrial. No entanto, para quem acompanha o tema, isso não pode ser desculpa para ausência de salvaguardas e transparência.

“A Anvisa não precisa saber a fórmula específica da Coca-Cola. Ela precisa saber se, na construção e regulação do produto, foram seguidas regras básicas e se o produto causa algum dano ou não à população. Se causa dano, precisa ter um alerta. Há níveis de transparência que podem ser respeitados e que não entregam o ouro das tecnologias”, afirma Cruz.

A inteligência artificial (IA) conquistou o mundo nos últimos meses graças aos avanços dos grandes modelos de linguagem (LLM), que abastecem serviços populares como o ChatGPT. À primeira vista, a tecnologia pode parecer mágica, mas, por trás dela, estão imensos volumes de informações que turbinam as respostas espertas e eloquentes. No entanto, esse modelo pode estar à sombra de um grande escândalo de dados.

Sistemas de IA generativa, como o ChatGPT, são grandes máquinas probabilísticas: eles analisam quantidades gigantes de texto e fazem conexões entre termos (algo conhecido como parâmetros) para gerar texto inédito quando solicitados - quanto maior a quantidade de parâmetros, mais sofisticada tende a ser a IA. A primeira versão do ChatGPT, lançada em novembro passado, tinha 175 bilhões de parâmetros.

O que começa a assombrar autoridades e especialistas é a natureza dos dados que estão sendo usados para treinar esses sistemas - é difícil saber a origem das informações e o que exatamente está alimentando as máquinas. O artigo científico do GPT-3, primeira versão do “cérebro” do ChatGPT, dá uma ideia do que foi usado. Foram usados os pacotes Common Crawl e WebText2 (pacotes de textos filtrados de internet e redes sociais), Books1 e Books2 (pacotes de livros disponíveis na web) e a versão em inglês da Wikipédia.

Ainda que os pacotes tenham sido revelados, não se sabe exatamente o que os compõe - ninguém sabe dizer se há um post de um blog pessoal qualquer ou de uma rede social alimentando o modelo, por exemplo. O jornal Washington Post analisou um pacote chamado C4, usado para treinar os LLMs T5, do Google, e o LLaMA, do Facebook. Encontrou 15 milhões de sites, que incluem veículos jornalísticos, fóruns de jogos, repositórios piratas de livros e dois bancos de dados que hospedavam informações estaduais de eleitores nos EUA.

Origem das bases de dados dos grandes modelos de IA geram preocupações Foto: Joel Saget/AFP

Com a intensa competição no mercado de IA generativa, a transparência sobre o uso de dados piorou. A OpenAI não revelou quais bases de dados usou para treinar o GPT-4, o atual cérebro do ChatGPT. Ao falar sobre o Bard, chatbot que chegou recentemente ao Brasil, o Google também adotou um discurso vago de que treina seus modelos com “informações disponibilizadas publicamente na internet”.

Movimentação de autoridades

Isso vem gerando movimentação de reguladores em diferentes países. Em março, a Itália suspendeu o ChatGPT por preocupações de violação das leis de proteção de dados. Em maio, reguladores canadenses iniciaram uma investigação contra a OpenAI sobre a coleta e uso de dados. Nesta semana, a Federal Trade Comission (FTC) dos EUA passou a investigar se o serviço causou danos a consumidores e se a OpenAI realizou práticas “injustas ou enganosas” em termos de privacidade e segurança de dados. Segundo o órgão, essas práticas podem ter causado “dano reputacional” às pessoas.

A Rede Iberoamericana de proteção de Dados (RIPD), que reúne 16 autoridades de dados de 12 países, incluindo o Brasil, também decidiu investigar as práticas da OpenAI. Por aqui, o Estadão procurou a Autoridade Nacional de Proteção de Dados (ANPD), que afirmou em nota que está “realizando um estudo preliminar que, embora não dedicado exclusivamente ao ChatGPT, tem por objetivo fundamentar os conceitos relacionados aos modelos generativos de inteligência artificial, bem como identificar potenciais riscos à privacidade e proteção de dados”. Anteriormente, a ANPD havia publicado um documento no qual ela indica querer ser a autoridade fiscalizatória e regulatória sobre IA.

As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas

Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec)

Luca Belli, professor de Direito e coordenador do centro de tecnologia e sociedade da Fundação Getulio Vargas (FGV) do Rio, peticionou a ANPD sobre o uso de dados por grandes modelos de IA. “Como titular de dados pessoais, eu tenho direito de saber como a OpenAI gera respostas sobre mim. É evidente que o ChatGPT criou resultados a partir de um enorme banco de dados que incluem também minhas informações pessoais”, diz ele ao Estadão. “Existe consentimento para que usem meus dados pessoais? Não. Existe uma base legal para que usem os meus dados para treinar modelos de IA? Não.”

Belli afirma que não teve resposta da ANPD. Perguntado sobre o assunto pela reportagem, o órgão não respondeu - também não indicou se está trabalhando com o RIPD a respeito do tema.

A agitação lembra o período que antecedeu o escândalo Cambridge Analytica, no qual os dados de 87 milhões de pessoas no Facebook foram usados indevidamente. Especialistas em privacidade e proteção de dados apontavam para o uso problemático de dados em grandes plataformas, mas a ação de autoridades não deu conta do problema.

“As coisas só mudam quando há um escândalo. Começa a ficar visível que não aprendemos com os erros do passado. O ChatGPT é muito opaco sobre as bases de dados utilizadas”, afirma Luã Cruz, especialista em telecomunicações no Instituto Brasileiro de Defesa do Consumidor (Idec).

Não é só privacidade

Ao contrário, porém, do caso do Facebook, o uso indevido de dados por LLMs pode gerar não apenas um escândalo de privacidade, mas também de direitos autorais. Nos EUA, os escritores Mona Awad e Paul Tremblay entraram com um processo contra a OpenAI por acreditarem que seus livros foram usados para treinar o ChatGPT.

Além disso, artistas visuais também temem que suas obras alimentem geradores de imagens, como o DALL-E 2, Midjourney e Stable Diffusion. Nesta semana, a OpenAI fechou um acordo com a agência Associated Press para usar seus textos jornalísticos no treinamento de seus modelos. É um passo ainda tímido diante do que a companhia já construiu.

“Veremos no futuro uma enxurrada de ações coletivas disputando os limites de uso de dados. Privacidade e direito autoral são ideias muito próximas”, afirma Rafael Zanatta, diretor da Associação Data Privacy Brasil. Para ele, a pauta de direito autoral tem mais apelo e deverá pressionar mais as gigantes da tecnologia.

Google mudou termos de uso para usar dados públicos na web para treinar sistemas de IA Foto: Josh Edelson/AFP

Zanatta argumenta que os grandes modelos de IA colocam em xeque a ideia de que dados públicos na internet são recursos disponíveis para uso independentemente do contexto em que são aplicados. “É preciso respeitar a integridade contextual. Por exemplo, quem postou uma foto no Fotolog anos atrás não imaginava e nem permitiu que a sua imagem fosse usada para treinar um banco de IA”, afirma.

Para tentar ganhar alguma segurança jurídica, o Google, por exemplo, alterou os seus termos de uso no dia 1.º de julho para indicar que dados “disponíveis na web” poderão ser usados para treinar sistemas de IA.

O documento diz: “Podemos, por exemplo, coletar informações disponíveis publicamente online ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem. Ou, caso as informações sobre sua empresa apareçam em um site, podemos indexá-las e exibi-las nos Serviços do Google.” Procurada pelo Estadão, a gigante não comenta o assunto.

Até aqui, os gigantes da IA tratam seus bancos de dados quase como a “receita da Coca-Cola” - ou seja, um segredo industrial. No entanto, para quem acompanha o tema, isso não pode ser desculpa para ausência de salvaguardas e transparência.

“A Anvisa não precisa saber a fórmula específica da Coca-Cola. Ela precisa saber se, na construção e regulação do produto, foram seguidas regras básicas e se o produto causa algum dano ou não à população. Se causa dano, precisa ter um alerta. Há níveis de transparência que podem ser respeitados e que não entregam o ouro das tecnologias”, afirma Cruz.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.