Quase não existem mais dados para treinar IAs e alternativa pode ser um problema; entenda

Com a crescente escassez de textos de alta qualidade criados por humanos, empresas como OpenAI e Anthropic apostam em dados sintéticos

PUBLICIDADE

Por Cade Metz (The New York Times ) e Stuart A. Thompson (The New York Times)

A OpenAI, o Google e outras empresas de tecnologia treinam seus chatbots com enormes quantidades de dados extraídos de livros, artigos da Wikipédia, notícias e outras fontes da internet. Mas, no futuro, elas esperam usar algo chamado de dados sintéticos.

PUBLICIDADE

Isso porque as empresas de tecnologia podem esgotar o texto de alta qualidade que a internet tem a oferecer para o desenvolvimento da inteligência artificial (IA). E as empresas estão enfrentando processos de direitos autorais de autores, organizações de notícias e programadores de computador por usarem seus trabalhos sem permissão.

Eles acreditam que os dados sintéticos ajudarão a reduzir os problemas de direitos autorais e aumentarão o fornecimento de materiais de treinamento necessários para a IA. Veja o que você deve saber sobre isso.

Com o esgotamento de fontes de dados convencionais e desafios de direitos autorais, empresas de tecnologia como OpenAI e Google buscam inovar, adotando dados sintéticos gerados por IA para treinar suas próprias inteligências artificiais Foto: Jackie Molloy/NYT

O que são dados sintéticos?

São dados gerados pela inteligência artificial.

Publicidade

Isso significa que as empresas de tecnologia querem que a IA seja treinada pela IA?

Sim. Em vez de treinar modelos de IA com textos escritos por pessoas, empresas de tecnologia como Google, OpenAI e Anthropic esperam treinar sua tecnologia com dados gerados por outros modelos de IA.

Dados sintéticos funcionam?

Não exatamente. Os modelos de IA erram e inventam coisas. Eles também demonstraram que captam os vieses que aparecem nos dados da internet com base nos quais foram treinados. Portanto, se as empresas usam a IA para treinar a IA, elas podem acabar ampliando suas próprias falhas.

Dados sintéticos estão sendo amplamente utilizados pelas empresas de tecnologia atualmente?

Não. As empresas de tecnologia estão fazendo experiências com eles. Mas devido às possíveis falhas dos dados sintéticos, eles não são uma grande parte da forma como os sistemas de IA são construídos atualmente.

Então, por que empresas de tecnologia dizem que dados sintéticos são o futuro?

As empresas acreditam que podem refinar a forma como os dados sintéticos são criados. A OpenAI e outras empresas exploraram uma técnica em que dois modelos diferentes de IA trabalham juntos para gerar dados sintéticos mais úteis e confiáveis.

Publicidade

Um modelo de IA gera os dados. Em seguida, um segundo modelo julga os dados, da mesma forma que um ser humano faria, decidindo se os dados são bons ou ruins, precisos ou não. Os modelos de IA são, na verdade, melhores para avaliar o texto do que para escrevê-lo.

“Se você der duas coisas à tecnologia, ela é muito boa em escolher qual delas parece melhor”, disse Nathan Lile, executivo-chefe da startup de IA SynthLabs.

A ideia é que isso forneça os dados de alta qualidade necessários para treinar um chatbot ainda melhor.

Essa técnica funciona?

Mais ou menos. Tudo se resume a esse segundo modelo de IA. Qual é a sua capacidade de avaliar o texto?

Publicidade

A Anthropic tem sido a mais explícita em seus esforços para fazer isso funcionar. Ela ajusta o segundo modelo de IA usando uma “constituição” selecionada pelos pesquisadores da empresa. Isso ensina o modelo a escolher textos que apoiem determinados princípios, como liberdade, igualdade e um senso de fraternidade, ou vida, liberdade e segurança pessoal. O método da Anthropic é conhecido como “IA Constitucional”.

Veja como dois modelos de IA trabalham em conjunto para produzir dados sintéticos usando um processo como o da Anthropic:

Pede-se a um modelo de IA que crie várias respostas a uma solicitação como:

Explique o pouso na Lua para uma criança de 6 anos.

Publicidade

Cada resposta recebe uma pontuação de preferência. A resposta com a pontuação mais alta é usada.

Essas pontuações são determinadas por outro modelo de IA, que pode julgar as respostas com base na veracidade, honestidade e utilidade.

Empresas como OpenAI e Google usam dados sintéticos de IA para avançar chatbots, superando desafios de direitos autorais e escassez de fontes, revolucionando a IA  Foto: Jackie Molloy/NYT

O modelo de IA é treinado com seu próprio conjunto de valores, às vezes chamado de constituição, que pode incluir valores mais complexos, como o combate à discriminação.

Mesmo assim, são necessários humanos para garantir que o segundo modelo de IA permaneça no caminho certo. Isso limita a quantidade de dados sintéticos que esse processo pode gerar. E os pesquisadores não concordam se um método como o da Anthropic continuará a melhorar os sistemas de IA

Publicidade

Dados sintéticos ajudam empresas a evitar uso de informações protegidas por direitos autorais?

Os modelos de IA que geram dados sintéticos foram treinados com dados criados por humanos, muitos dos quais protegidos por direitos autorais. Portanto, os detentores de direitos autorais ainda podem argumentar que empresas como a OpenAI e a Anthropic usaram textos, imagens e vídeos protegidos por direitos autorais sem permissão.

Jeff Clune, professor de ciência da computação da Universidade da Colúmbia Britânica, que trabalhou anteriormente como pesquisador da OpenAI, disse que os modelos de IA podem se tornar mais poderosos do que o cérebro humano em alguns aspectos. Mas eles farão isso porque aprenderam com o cérebro humano.

“Tomando emprestado de Newton: A IA enxerga mais longe por estar sobre os ombros de conjuntos de dados humanos gigantescos”, disse ele.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Publicidade

Comentários

Os comentários são exclusivos para assinantes do Estadão.