Em julho passado, o Google fez uma alteração de oito palavras em sua política de privacidade que representou um passo significativo em sua corrida para construir a próxima geração de inteligência artificial (IA).
Com milhares de palavras enterradas em seu documento, o Google ajustou a fraseologia de como usava os dados para seus produtos, acrescentando que as informações públicas poderiam ser usadas para treinar seu chatbot de IA e outros serviços.
Alterações no texto (entre aspas: adicionado / sublinhado: cortado)
A mudança sutil não foi exclusiva do Google. À medida que as empresas procuram treinar seus modelos de IA em dados protegidos por leis de privacidade, elas estão reescrevendo cuidadosamente seus termos e condições para incluir palavras como “inteligência artificial”, “aprendizado de máquina” e “IA generativa”.
Algumas alterações nos termos de serviço são tão pequenas quanto algumas palavras. Outras incluem a adição de seções inteiras para explicar como os modelos de IA generativa funcionam e os tipos de acesso que eles têm aos dados do usuário. A Snap, por exemplo, alertou seus usuários para não compartilharem informações confidenciais com seu chatbot de IA, pois elas seriam usadas em seu treinamento, e a Meta alertou os usuários na Europa que as publicações públicas no Facebook e no Instagram seriam usadas em breve para treinar seu modelo de linguagem ampla.
Esses termos e condições, que muitas pessoas ignoraram por muito tempo, agora estão sendo contestados por alguns usuários que são escritores, ilustradores e artistas visuais e temem que seu trabalho esteja sendo usado para treinar os produtos que ameaçam substituí-los.
“Já estamos sendo destruídos à esquerda, à direita e ao centro por conteúdo inferior que é basicamente treinado em nosso material, e agora estamos sendo descartados”, disse Sasha Yanshin, personalidade do YouTube e cofundador de um site de recomendações de viagens.
Este mês, Yanshin cancelou sua assinatura da Adobe devido a uma alteração na política de privacidade da empresa. “A loja de ferragens que lhe vende um pincel não é dona da pintura que você faz com ele, certo?”, disse ele.
Para treinar a IA generativa, as empresas de tecnologia podem utilizar dois conjuntos de dados: públicos e privados. Os dados públicos estão disponíveis na web para qualquer pessoa ver, enquanto os dados privados incluem coisas como mensagens de texto, e-mails e publicações em mídias sociais feitas em contas privadas.
Os dados públicos são um recurso finito, e várias empresas estão a apenas alguns anos de usar todos eles em seus sistemas de IA. Mas gigantes da tecnologia, como Meta e Google, estão sentados em um tesouro de dados privados que pode ser 10 vezes maior do que sua contraparte pública, disse Tamay Besiroglu, diretor associado da Epoch, um instituto de pesquisa de IA.
Esses dados podem representar “uma vantagem substancial” na corrida da IA, disse Besiroglu. O problema é obter acesso a eles. Os dados privados são protegidos, em sua maioria, por uma colcha de retalhos de leis de privacidade federais e estaduais que dão aos usuários algum tipo de licença sobre o conteúdo que criam online, e as empresas não podem usá-los para seus próprios produtos sem consentimento.
Leia também
Em fevereiro, a Comissão Federal de Comércio advertiu as empresas de tecnologia que alterar as políticas de privacidade para coletar retroativamente dados antigos poderia ser “injusto ou enganoso”.
O treinamento em IA poderia eventualmente usar os tipos de dados mais pessoais, como mensagens para amigos e familiares. Um porta-voz do Google disse que um pequeno grupo de teste de usuários, com permissão, permitiu que o Google treinasse sua IA em alguns aspectos de seus e-mails pessoais.
Algumas empresas têm enfrentado dificuldades para equilibrar seu desejo de obter novos dados com as preocupações com a privacidade dos usuários. Em junho, a Adobe enfrentou reações negativas nas mídias sociais depois de alterar sua política de privacidade para incluir uma frase sobre automação que muitos de seus clientes interpretaram como relacionada à raspagem de IA.
Alterações no texto (negrito: adicionado / sublinhado: cortado)
A empresa explicou as mudanças em duas postagens de blog, dizendo que os clientes as haviam entendido mal. Em 18 de junho, a Adobe adicionou explicações ao topo de algumas seções de seus termos e condições.
“Nunca treinamos IA generativa no conteúdo do cliente, nunca assumimos a propriedade do trabalho de um cliente ou permitimos o acesso ao conteúdo do cliente além dos requisitos legais”, disse Dana Rao, conselheira geral da Adobe e diretora de confiança, em um comunicado.
Este ano, a Snap atualizou sua política de privacidade sobre os dados coletados pelo My AI, seu chatbot de IA com o qual os usuários podem conversar.
Alterações no texto (entre aspas: adicionado / sublinhado: cortado)
Alterações no texto (entre aspas: adicionado / sublinhado: cortado)
Um porta-voz da Snap disse que a empresa deu “avisos antecipados” sobre como usava os dados para treinar sua IA com a permissão de seus usuários.
Em setembro, o X (ex-Twitter) acrescentou uma única frase à sua política de privacidade sobre aprendizado de máquina e IA. A empresa não retornou um pedido de comentário.
Alterações no texto (entre aspas: adicionado / sublinhado: cortado)
No mês passado, a Meta alertou seus usuários do Facebook e do Instagram na Europa de que usaria publicações disponíveis publicamente para treinar sua IA a partir de 26 de junho, o que provocou algumas reações negativas. Posteriormente, a empresa suspendeu os planos depois que o Centro Europeu de Direitos Digitais apresentou reclamações contra a empresa em 11 países europeus.
Nos EUA, onde as leis de privacidade são menos rígidas, a Meta tem conseguido usar publicações públicas de mídia social para treinar sua IA sem esse alerta. A empresa anunciou em setembro que a nova versão de seu modelo de linguagem de grande porte foi treinada com dados de usuários que não haviam sido treinados em sua versão anterior.
A Meta disse que sua IA não lia mensagens enviadas entre amigos e familiares em aplicativos como Messenger e WhatsApp, a menos que um usuário marcasse seu chatbot de IA em uma mensagem.
“O uso de informações disponíveis publicamente para treinar modelos de IA é uma prática de todo o setor e não é exclusiva de nossos serviços”, disse um porta-voz da Meta em um comunicado.
Muitas empresas também estão adicionando uma linguagem aos seus termos de uso que protege seu conteúdo de ser extraído para treinar IA concorrentes. A Adobe adicionou essa linguagem em 2022:
Alterações no texto (entre aspas: adicionado / sublinhado: cortado)
Alterações no texto (entre aspas: adicionado / sublinhado: cortado)
Yanshin disse que esperava que os órgãos reguladores agissem rapidamente na criação de proteções para pequenas empresas como a sua contra empresas de IA, e que o tráfego em seu site de viagens havia caído 95% desde que começou a competir com agregadores de IA.
“As pessoas vão ficar debatendo os prós e os contras de roubar dados porque isso dá um bom chatbot”, disse ele. “Daqui a três, quatro, cinco anos, talvez não existam segmentos inteiros desse setor criativo, porque seremos dizimados.”
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.