Quase não existem mais dados para treinar IAs e alternativa pode ser um problema; entenda

A OpenAI, o Google e outras empresas de tecnologia treinam seus chatbots com enormes quantidades de dados extraídos de livros, artigos da Wikipédia, notícias e outras fontes da internet. Mas, no futuro, elas esperam usar algo chamado de dados sintéticos.

Isso porque as empresas de tecnologia podem esgotar o texto de alta qualidade que a internet tem a oferecer para o desenvolvimento da inteligência artificial (IA). E as empresas estão enfrentando processos de direitos autorais de autores, organizações de notícias e programadores de computador por usarem seus trabalhos sem permissão.

Eles acreditam que os dados sintéticos ajudarão a reduzir os problemas de direitos autorais e aumentarão o fornecimento de materiais de treinamento necessários para a IA. Veja o que você deve saber sobre isso.

Com o esgotamento de fontes de dados convencionais e desafios de direitos autorais, empresas de tecnologia como OpenAI e Google buscam inovar, adotando dados sintéticos gerados por IA para treinar suas próprias inteligências artificiais Foto: Jackie Molloy/NYT

O que são dados sintéticos?

São dados gerados pela inteligência artificial.

Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?

Sim. Em vez de treinar modelos de IA com textos escritos por pessoas, empresas de tecnologia como Google, OpenAI e Anthropic esperam treinar sua tecnologia com dados gerados por outros modelos de IA.

Dados sintéticos funcionam?

Não exatamente. Os modelos de IA erram e inventam coisas. Eles também demonstraram que captam os vieses que aparecem nos dados da internet com base nos quais foram treinados. Portanto, se as empresas usam a IA para treinar a IA, elas podem acabar ampliando suas próprias falhas.

Dados sintéticos estão sendo amplamente utilizados pelas empresas de tecnologia atualmente?

Não. As empresas de tecnologia estão fazendo experiências com eles. Mas devido às possíveis falhas dos dados sintéticos, eles não são uma grande parte da forma como os sistemas de IA são construídos atualmente.

Então, por que empresas de tecnologia dizem que dados sintéticos são o futuro?

As empresas acreditam que podem refinar a forma como os dados sintéticos são criados. A OpenAI e outras empresas exploraram uma técnica em que dois modelos diferentes de IA trabalham juntos para gerar dados sintéticos mais úteis e confiáveis.

Um modelo de IA gera os dados. Em seguida, um segundo modelo julga os dados, da mesma forma que um ser humano faria, decidindo se os dados são bons ou ruins, precisos ou não. Os modelos de IA são, na verdade, melhores para avaliar o texto do que para escrevê-lo.

“Se você der duas coisas à tecnologia, ela é muito boa em escolher qual delas parece melhor”, disse Nathan Lile, executivo-chefe da startup de IA SynthLabs.

A ideia é que isso forneça os dados de alta qualidade necessários para treinar um chatbot ainda melhor.

Essa técnica funciona?

Mais ou menos. Tudo se resume a esse segundo modelo de IA. Qual é a sua capacidade de avaliar o texto?

A Anthropic tem sido a mais explícita em seus esforços para fazer isso funcionar. Ela ajusta o segundo modelo de IA usando uma “constituição” selecionada pelos pesquisadores da empresa. Isso ensina o modelo a escolher textos que apoiem determinados princípios, como liberdade, igualdade e um senso de fraternidade, ou vida, liberdade e segurança pessoal. O método da Anthropic é conhecido como “IA Constitucional”.

Veja como dois modelos de IA trabalham em conjunto para produzir dados sintéticos usando um processo como o da Anthropic:

Pede-se a um modelo de IA que crie várias respostas a uma solicitação como:

Explique o pouso na Lua para uma criança de 6 anos.

Cada resposta recebe uma pontuação de preferência. A resposta com a pontuação mais alta é usada.

Essas pontuações são determinadas por outro modelo de IA, que pode julgar as respostas com base na veracidade, honestidade e utilidade.

Empresas como OpenAI e Google usam dados sintéticos de IA para avançar chatbots, superando desafios de direitos autorais e escassez de fontes, revolucionando a IA Foto: Jackie Molloy/NYT

O modelo de IA é treinado com seu próprio conjunto de valores, às vezes chamado de constituição, que pode incluir valores mais complexos, como o combate à discriminação.

Mesmo assim, são necessários humanos para garantir que o segundo modelo de IA permaneça no caminho certo. Isso limita a quantidade de dados sintéticos que esse processo pode gerar. E os pesquisadores não concordam se um método como o da Anthropic continuará a melhorar os sistemas de IA

Dados sintéticos ajudam empresas a evitar uso de informações protegidas por direitos autorais?

Os modelos de IA que geram dados sintéticos foram treinados com dados criados por humanos, muitos dos quais protegidos por direitos autorais. Portanto, os detentores de direitos autorais ainda podem argumentar que empresas como a OpenAI e a Anthropic usaram textos, imagens e vídeos protegidos por direitos autorais sem permissão.

Jeff Clune, professor de ciência da computação da Universidade da Colúmbia Britânica, que trabalhou anteriormente como pesquisador da OpenAI, disse que os modelos de IA podem se tornar mais poderosos do que o cérebro humano em alguns aspectos. Mas eles farão isso porque aprenderam com o cérebro humano.

“Tomando emprestado de Newton: A IA enxerga mais longe por estar sobre os ombros de conjuntos de dados humanos gigantescos”, disse ele.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Tudo Sobre

Comentários

Os comentários são exclusivos para assinantes do Estadão.

Assine o Estadão Já sou assinante

Quase não existem mais dados para treinar IAs e alternativa pode ser um problema; entenda

Com a crescente escassez de textos de alta qualidade criados por humanos, empresas como OpenAI e Anthropic apostam em dados sintéticos

O que são dados sintéticos?

Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?

Dados sintéticos funcionam?

Dados sintéticos estão sendo amplamente utilizados pelas empresas de tecnologia atualmente?

Leia também

Então, por que empresas de tecnologia dizem que dados sintéticos são o futuro?

Essa técnica funciona?

Dados sintéticos ajudam empresas a evitar uso de informações protegidas por direitos autorais?

Últimas: Cultura Digital

Não há salvação: toda rede social acaba virando terra arrasada; leia análise

Cinco pontos que explicam o pessimismo com a tecnologia

Modelos de IA têm opiniões e não estão dispostos a mudá-las; entenda

Testamos a Sora, IA da OpenAI que gera filmes curtos, e ela decepciona; veja vídeo

Quer trabalhar com tecnologia em 2025? Veja o que é necessário para ir além da programação

Mais lidas

Jeff Bezos se prepara para diminuir a diferença na corrida espacial com Elon Musk

Pilares da IA dão sinais de esgotamento e colocam em xeque o futuro da tecnologia

Nova IA da OpenAI dá sinais de superinteligência e empresa convoca testes de segurança

O que é e como entender a geração Z? E-book explica o que move os ‘Zoomers’

Modo avião do celular: por que é preciso usar e para que serve?