Termos de uso de redes sociais estão silenciosamente mudando para que seus dados treinem IAs

Google e Meta lideram mudanças sutis nas políticas de privacidade, utilizando informações públicos e privados para avançar em modelos de IA

PUBLICIDADE

Por Eli Tan (The New York Times)

Em julho passado, o Google fez uma alteração de oito palavras em sua política de privacidade que representou um passo significativo em sua corrida para construir a próxima geração de inteligência artificial (IA).

Com milhares de palavras enterradas em seu documento, o Google ajustou a fraseologia de como usava os dados para seus produtos, acrescentando que as informações públicas poderiam ser usadas para treinar seu chatbot de IA e outros serviços.

Usamos informações disponíveis publicamente para ajudar a treinar os modelos de “IA” (de idiomas) do Google e criar “produtos” e recursos como o Google Translate, o “Bard e os recursos de IA na nuvem”.

Alterações no texto (entre aspas: adicionado / sublinhado: cortado)

PUBLICIDADE

A mudança sutil não foi exclusiva do Google. À medida que as empresas procuram treinar seus modelos de IA em dados protegidos por leis de privacidade, elas estão reescrevendo cuidadosamente seus termos e condições para incluir palavras como “inteligência artificial”, “aprendizado de máquina” e “IA generativa”.

Algumas alterações nos termos de serviço são tão pequenas quanto algumas palavras. Outras incluem a adição de seções inteiras para explicar como os modelos de IA generativa funcionam e os tipos de acesso que eles têm aos dados do usuário. A Snap, por exemplo, alertou seus usuários para não compartilharem informações confidenciais com seu chatbot de IA, pois elas seriam usadas em seu treinamento, e a Meta alertou os usuários na Europa que as publicações públicas no Facebook e no Instagram seriam usadas em breve para treinar seu modelo de linguagem ampla.

Publicidade

Plataformas vem alterando suas políticas para utilizar dados de usuários para treinar IA Foto: Alice Labate/Estadão

Esses termos e condições, que muitas pessoas ignoraram por muito tempo, agora estão sendo contestados por alguns usuários que são escritores, ilustradores e artistas visuais e temem que seu trabalho esteja sendo usado para treinar os produtos que ameaçam substituí-los.

“Já estamos sendo destruídos à esquerda, à direita e ao centro por conteúdo inferior que é basicamente treinado em nosso material, e agora estamos sendo descartados”, disse Sasha Yanshin, personalidade do YouTube e cofundador de um site de recomendações de viagens.

Este mês, Yanshin cancelou sua assinatura da Adobe devido a uma alteração na política de privacidade da empresa. “A loja de ferragens que lhe vende um pincel não é dona da pintura que você faz com ele, certo?”, disse ele.

Para treinar a IA generativa, as empresas de tecnologia podem utilizar dois conjuntos de dados: públicos e privados. Os dados públicos estão disponíveis na web para qualquer pessoa ver, enquanto os dados privados incluem coisas como mensagens de texto, e-mails e publicações em mídias sociais feitas em contas privadas.

Publicidade

Os dados públicos são um recurso finito, e várias empresas estão a apenas alguns anos de usar todos eles em seus sistemas de IA. Mas gigantes da tecnologia, como Meta e Google, estão sentados em um tesouro de dados privados que pode ser 10 vezes maior do que sua contraparte pública, disse Tamay Besiroglu, diretor associado da Epoch, um instituto de pesquisa de IA.

Esses dados podem representar “uma vantagem substancial” na corrida da IA, disse Besiroglu. O problema é obter acesso a eles. Os dados privados são protegidos, em sua maioria, por uma colcha de retalhos de leis de privacidade federais e estaduais que dão aos usuários algum tipo de licença sobre o conteúdo que criam online, e as empresas não podem usá-los para seus próprios produtos sem consentimento.

Em fevereiro, a Comissão Federal de Comércio advertiu as empresas de tecnologia que alterar as políticas de privacidade para coletar retroativamente dados antigos poderia ser “injusto ou enganoso”.

O treinamento em IA poderia eventualmente usar os tipos de dados mais pessoais, como mensagens para amigos e familiares. Um porta-voz do Google disse que um pequeno grupo de teste de usuários, com permissão, permitiu que o Google treinasse sua IA em alguns aspectos de seus e-mails pessoais.

Algumas empresas têm enfrentado dificuldades para equilibrar seu desejo de obter novos dados com as preocupações com a privacidade dos usuários. Em junho, a Adobe enfrentou reações negativas nas mídias sociais depois de alterar sua política de privacidade para incluir uma frase sobre automação que muitos de seus clientes interpretaram como relacionada à raspagem de IA.

Nosso acesso ao seu conteúdo: Somente poderemos acessar, visualizar ou ouvir seu Conteúdo por meio de métodos automatizados e manuais, mas apenas de forma limitada e conforme permitido por lei.

Alterações no texto (negrito: adicionado / sublinhado: cortado)

A empresa explicou as mudanças em duas postagens de blog, dizendo que os clientes as haviam entendido mal. Em 18 de junho, a Adobe adicionou explicações ao topo de algumas seções de seus termos e condições.

“Nunca treinamos IA generativa no conteúdo do cliente, nunca assumimos a propriedade do trabalho de um cliente ou permitimos o acesso ao conteúdo do cliente além dos requisitos legais”, disse Dana Rao, conselheira geral da Adobe e diretora de confiança, em um comunicado.

Este ano, a Snap atualizou sua política de privacidade sobre os dados coletados pelo My AI, seu chatbot de IA com o qual os usuários podem conversar.

Publicidade

My AI é um (chatbot experimental,) “um chatbot construído com base em tecnologia de IA generativa, projetado com a segurança em mente”. (É uma maneira divertida de obter informações, mas continua sendo um recurso em evolução, portanto você deve sempre verificar de forma independente as respostas fornecidas pelo My AI antes de confiar em qualquer conselho e não deve compartilhar nenhuma informação confidencial ou sensível.)A IA generativa é uma tecnologia em desenvolvimento que pode fornecer respostas tendenciosas, incorretas, prejudiciais ou enganosas. Portanto, você não deve confiar em seus conselhos. Você também não deve compartilhar nenhuma informação confidencial ou sensível — se o fizer, ela será usada pelo My AI”.

Alterações no texto (entre aspas: adicionado / sublinhado: cortado)

Quando você interage com o My AI, usamos (as informações que coletamos para melhorar os produtos do Snap e personalizar sua experiência,) “o conteúdo que você compartilha e sua localização (se você tiver habilitado o compartilhamento de localização com o Snapchat) para melhorar os produtos do Snap, incluindo o aprimoramento da segurança e proteção do My AI. e para personalizar sua experiência”, incluindo anúncios.

Alterações no texto (entre aspas: adicionado / sublinhado: cortado)

Um porta-voz da Snap disse que a empresa deu “avisos antecipados” sobre como usava os dados para treinar sua IA com a permissão de seus usuários.

Em setembro, o X (ex-Twitter) acrescentou uma única frase à sua política de privacidade sobre aprendizado de máquina e IA. A empresa não retornou um pedido de comentário.

Usamos as informações que coletamos para fornecer e operar produtos e serviços X. Também utilizamos as informações que coletamos para melhorar e personalizar nossos produtos e serviços para que você tenha uma melhor experiência no X, inclusive mostrando conteúdo e anúncios mais relevantes, sugerindo pessoas e tópicos para seguir, possibilitando e ajudando você a descobrir afiliados , terceiros -aplicativos e serviços de festas. “Poderemos usar as informações que coletamos e as informações disponíveis publicamente para ajudar a treinar nossos modelos de aprendizado de máquina ou de inteligência artificial para os fins descritos nesta política.”

Alterações no texto (entre aspas: adicionado / sublinhado: cortado)

No mês passado, a Meta alertou seus usuários do Facebook e do Instagram na Europa de que usaria publicações disponíveis publicamente para treinar sua IA a partir de 26 de junho, o que provocou algumas reações negativas. Posteriormente, a empresa suspendeu os planos depois que o Centro Europeu de Direitos Digitais apresentou reclamações contra a empresa em 11 países europeus.

Nos EUA, onde as leis de privacidade são menos rígidas, a Meta tem conseguido usar publicações públicas de mídia social para treinar sua IA sem esse alerta. A empresa anunciou em setembro que a nova versão de seu modelo de linguagem de grande porte foi treinada com dados de usuários que não haviam sido treinados em sua versão anterior.

Publicidade

A Meta disse que sua IA não lia mensagens enviadas entre amigos e familiares em aplicativos como Messenger e WhatsApp, a menos que um usuário marcasse seu chatbot de IA em uma mensagem.

“O uso de informações disponíveis publicamente para treinar modelos de IA é uma prática de todo o setor e não é exclusiva de nossos serviços”, disse um porta-voz da Meta em um comunicado.

Muitas empresas também estão adicionando uma linguagem aos seus termos de uso que protege seu conteúdo de ser extraído para treinar IA concorrentes. A Adobe adicionou essa linguagem em 2022:

Sem modificações, engenharia reversa, “inteligência artificial/aprendizagem de máquina (IA/ML)”

Alterações no texto (entre aspas: adicionado / sublinhado: cortado)

Exceto conforme expressamente permitido nos Termos, você não deve (e não deve permitir que terceiros)… “usar os Serviços ou Software, ou qualquer conteúdo, dados, saída ou outras informações recebidas ou derivadas dos Serviços ou Software, para direta ou criar, treinar, testar ou melhorar indiretamente qualquer algoritmo de aprendizado de máquina ou sistema de inteligência artificial, incluindo, entre outros, quaisquer arquiteturas, modelos ou pesos.”

Alterações no texto (entre aspas: adicionado / sublinhado: cortado)

Yanshin disse que esperava que os órgãos reguladores agissem rapidamente na criação de proteções para pequenas empresas como a sua contra empresas de IA, e que o tráfego em seu site de viagens havia caído 95% desde que começou a competir com agregadores de IA.

Publicidade

“As pessoas vão ficar debatendo os prós e os contras de roubar dados porque isso dá um bom chatbot”, disse ele. “Daqui a três, quatro, cinco anos, talvez não existam segmentos inteiros desse setor criativo, porque seremos dizimados.”

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Comentários

Os comentários são exclusivos para assinantes do Estadão.