Suas fotos no Instagram estão treinando IAs e há pouco que você possa fazer

WASHINGTON POST - As empresas de tecnologia estão usando suas conversas, fotos e documentos para ensinar suas inteligências artificiais (IA) a escrever, pintar e fingir ser humana. Você pode estar acostumado com o fato de elas venderem seus dados ou usá-los para segmentá-lo com anúncios. Mas agora eles estão usando esses dados para criar novas tecnologias lucrativas que podem transformar a economia — e fazer as companhias ainda maiores.

Se você estiver usando praticamente qualquer um dos novos produtos de IA generativa desenvolvidos pelas gigantes de tecnologia, provavelmente foi obrigado a concordar em ajudar a tornar a IA mais inteligente, o que às vezes inclui a revisão por humanos do que você faz com ela.

Novos riscos à privacidade

Não é novidade que as empresas de tecnologia usem seus dados para treinar produtos de IA. A Netflix usa o que você assiste e avalia para gerar recomendações. A Meta usa o que você curte, comenta e até mesmo o que você está olhando na tela para treinar a IA para ordenar seu feed de notícias e exibir anúncios.

No entanto, a IA generativa é diferente. A atual corrida armamentista da IA precisa de muitos e muitos dados. Elon Musk, presidente da Tesla, gabou-se recentemente para seu biógrafo de que tinha acesso a 160 bilhões de quadros de vídeo por dia capturados pelas câmeras instaladas nos carros das pessoas para alimentar suas ambições de IA.

“Todos estão agindo como se houvesse esse destino manifesto de ferramentas tecnológicas criadas com os dados das pessoas”, diz Ben Winters, conselheiro sênior do Electronic Privacy Information Center (EPIC), que vem estudando os danos da IA generativa. “Com o uso cada vez maior de ferramentas de IA, vem esse incentivo distorcido para coletar o máximo de dados que você puder antecipadamente.”

Tudo isso traz alguns riscos exclusivos à privacidade. Treinar uma IA para aprender tudo sobre o mundo significa que ela também acaba aprendendo coisas íntimas sobre os indivíduos, desde detalhes financeiros e médicos até as fotos e a escrita das pessoas.

Algumas empresas de tecnologia até reconhecem isso em suas letras miúdas. Quando você se inscreve para usar os novos auxiliares de escrita e geração de imagens do Workspace Labs AI do Google para Gmail, Docs, Planilhas e Apresentações, a empresa avisa: “não inclua informações pessoais, confidenciais ou sensíveis”.

O processo real de treinamento da IA pode ser um pouco assustador. As empresas empregam seres humanos para revisar parte do modo como usamos os produtos, como a nova pesquisa alimentada por IA do Google, chamada SGE. Em suas letras miúdas do Workspace Labs, o Google avisa que pode manter seus dados vistos por revisores humanos por até quatro anos de uma maneira não diretamente associada à sua conta.

Ainda pior para sua privacidade, a IA às vezes vaza dados de volta. A IA generativa, que é notoriamente difícil de controlar, pode regurgitar informações pessoais em resposta a uma nova solicitação, às vezes imprevista.

IA cria nova geração de ricaços; veja quem virou bilionário no último ano

Isso aconteceu até mesmo com empresas de tecnologia. Funcionários da Samsung estavam supostamente usando o ChatGPT e descobriram, em três ocasiões diferentes, que o chatbot vomitava segredos da empresa. A empresa então proibiu o uso de chatbots com IA no trabalho. A Apple, o Spotify e muitos bancos fizeram o mesmo.

As grandes empresas de tecnologia dizem que se esforçam para evitar vazamentos. A Microsoft diz que não identifica os dados do usuário inseridos no bate-papo do Bing, por exemplo. O Google diz que remove automaticamente as informações de identificação pessoal dos dados de treinamento. A Meta diz que treinará a IA generativa para não revelar informações privadas — portanto, ela pode compartilhar o aniversário de uma celebridade, mas não de pessoas comuns.

Todos estão agindo como se houvesse esse destino manifesto de ferramentas tecnológicas criadas com os dados das pessoas”

Ben Winters, conselheiro sênior do Electronic Privacy Information Center (EPIC)

Certo, mas qual é a eficácia dessas medidas? Essa é uma das perguntas para as quais as empresas não dão respostas diretas. “Embora nossos filtros estejam na vanguarda do setor, continuamos a aprimorá-los”, diz o Google. E com que frequência eles vazam? “Acreditamos que é muito limitada”, diz a empresa.

É ótimo saber que a IA do Google só vaza nossas informações às vezes. “É muito difícil para eles dizerem, com uma cara séria, ‘não temos dados confidenciais’”, diz Winters, da EPIC.

Talvez privacidade nem seja a palavra certa para essa bagunça. Também se trata de controle. Quem poderia imaginar que uma foto de férias postada em 2009 seria usada por uma megacorporação em 2023 para ensinar uma IA a fazer arte, tirar um fotógrafo do emprego ou identificar o rosto de alguém para a polícia? Quando usam suas informações para treinar a IA, as empresas podem ignorar sua intenção original de criá-las ou compartilhá-las.

Há uma linha tênue entre “tornar os produtos melhores” e o roubo, e as empresas de tecnologia acham que podem traçá-la.

Seus dados, as regras deles

Quais dados nossos estão e quais não estão fora dos limites? Grande parte da resposta está envolvida em processos judiciais, investigações e, com sorte, em algumas novas leis. Mas, enquanto isso, empresas de tecnologia estão criando suas próprias regras.

A reportagem pediu ao Google, à Meta e à Microsoft que informassem exatamente quando eles coletam dados de usuários de produtos que são essenciais para a vida moderna para tornar seus novos produtos de IA generativa mais inteligentes. Obter respostas diretas foi como perseguir um esquilo em um parque de diversões.

Eles disseram que não haviam usado informações privadas de usuários em seus maiores modelos de IA sem permissão. Mas essas palavras cuidadosamente escolhidas deixam muitas ocasiões em que eles estão, de fato, criando negócios lucrativos de IA com nossas vidas digitais.

Nem todos os usos de dados pela IA são iguais ou mesmo problemáticos. Mas, como usuários, praticamente precisamos de um diploma em ciência da computação para entender o que está acontecendo.

O Google é um ótimo exemplo. A empresa disse que seus modelos “fundamentais” de IA — o software por trás de coisas como o Bard, seu chatbot — vêm principalmente de “dados disponíveis publicamente na internet”. Contas de Gmail privadas não contribuíram para isso, diz a empresa.

No entanto, o Google ainda usa o Gmail para treinar outros produtos de IA, como o Smart Compose (que termina frases para você) e o novo treinador criativo Help Me Write, que faz parte do Workspace Labs. Esses usos são diferentes da IA “fundamental”, diz o Google, porque estão usando dados de um produto para aprimorá-lo.

A IA Smart Compose, segundo a empresa, torna anônimas e agrega nossas informações e aprimora a IA “sem expor o conteúdo real em questão”. A IA do Help Me Write aprende com suas “interações, feedback iniciado pelo usuário e métricas de uso”. Como você pode saber o que realmente está acontecendo?

Talvez não haja maneira de criar algo como o Smart Compose sem dados sobre como você usa seu e-mail. Mas isso não significa que o Google deva ativá-lo por você. Na Europa, onde há leis de dados mais rígidas, o Smart Compose está desativado por padrão. O acesso aos seus dados também não deve ser um requisito para usar os produtos mais recentes e melhores, mesmo que o Google os chame de “experimentos”.

A Meta disse que não treinou seu maior modelo de IA generativa, chamado Llama 2, com dados de usuários — públicos ou privados. No entanto, para os chatbots de IA e os recursos de geração de imagens que a empresa revelou no final de setembro, a Meta usou “publicações compartilhadas publicamente do Instagram e do Facebook, incluindo fotos e texto”.

A empresa disse que não os treinou em publicações privadas ou mensagens privadas com amigos, o que é bom. Mas ela não deveria pedir permissão para usar dados de publicações “públicas” que certamente incluem muitas fotos e detalhes sobre a família e a vida privada das pessoas? Para evitar isso, você teria que definir sua conta como privada ou sair do Instagram.

Assim como o Google, a Meta também reivindica o direito de usar tudo o que você compartilhar quando estiver usando seus novos produtos de IA generativa — como suas conversas com o chatbot — para treinar a IA.

A Microsoft atualizou seu contrato de serviço nos últimos meses com uma linguagem ampla sobre dados de usuários e não deu nenhuma garantia sobre a limitação do uso de nossos dados para treinar seus produtos de IA. A Microsoft disse, ainda, que não usa nossos dados do Word ou de outros programas do Microsoft 365 para “treinar modelos básicos subjacentes”.

Suas fotos no Instagram estão treinando IAs e há pouco que você possa fazer

Chatbots e geradores de imagens são apenas os exemplos mais recentes de como empresas estão usando suas conversas, fotos e documentos para ensinar a IA deles

Leia também

Novos riscos à privacidade

Seus dados, as regras deles

Últimas: Empresas

IA cria nova geração de ricaços; veja quem virou bilionário no último ano

Amazon faz oferta pela compra do TikTok nos EUA; entenda

TikTok vai ser vendido? Trump começa a decidir futuro do app nesta quarta

Apple e Elon Musk travam disputa por comunicação via satélite em celulares; entenda

OpenAI, dona do ChatGPT, agora vale US$ 300 bilhões após maior investimento da história

Mais lidas

IA cria nova geração de ricaços; veja quem virou bilionário no último ano