Primeiro, a OpenAI ofereceu uma ferramenta que permitia as pessoas a criarem imagens digitais simplesmente descrevendo o que gostariam de ver. Então, a empresa desenvolveu uma tecnologia similar, que gerava vídeos em movimento total, como algo saído de um filme de Hollywood. Agora, a criadora do ChatGPT revelou uma tecnologia que pode recriar a voz de qualquer pessoa.
A startup anunciou nesta sexta-feira, 29, que um pequeno grupo de empresas estava testando um novo sistema chamado Voice Engine, que pode recriar a voz de uma pessoa a partir de uma gravação de 15 segundos. Se você enviar uma gravação sua e um parágrafo de texto, ele poderá ler o texto usando uma voz artificial parecida com a sua.
O texto não precisa ser em sua língua nativa. Se você fala inglês, por exemplo, a ferramenta consegue recriar sua voz em espanhol, francês, chinês ou em vários outros idiomas.
Leia também
A empresa ainda não pública a tecnologia porque ainda está tentando entender seus potenciais danos. Assim como geradores de imagem e vídeo, um gerador de voz poderia ajudar a espalhar desinformação nas redes sociais. Também poderia permitir que criminosos e golpistas se passassem por terceiros.
A empresa teme que a tecnologia possa ser usada para quebrar autenticadores de voz que controlam o acesso a contas de banco e outros aplicativos pessoais. “Isso é uma coisa sensível, e é importante fazer isso certo”, disse Jeff Harris, gerente de produto da OpenAI em entrevista.
A OpenAI está explorando maneiras de colocar marcas d’água em vozes artificiais ou adicionar controles que impeçam as pessoas de usar a tecnologia com vozes de políticos ou outras figuras conhecidas.
No mês passado, a OpenAI adotou uma abordagem semelhante ao lançar seu gerador de vídeo, Sora. Ela exibiu a tecnologia, mas não a divulgou publicamente.
A OpenAI está entre as muitas empresas que desenvolveram uma nova geração de tecnologia de IA que pode gerar vozes sintéticas de forma rápida e fácil. Essa lista inclui gigantes da tecnologia como o Google, bem como startups como a ElevenLabs.
As empresas podem usar essas tecnologias para gerar audiolivros, dar voz a chatbots online ou até mesmo construir uma estação de rádio automatizada. Desde o ano passado, a OpenAI tem usado sua tecnologia para alimentar uma versão do ChatGPT que fala. E há muito tempo oferece às empresas uma variedade de vozes que podem ser usadas para aplicações semelhantes. Todas foram desenvolvidas a partir de clipes fornecidos por dubladores.
Mas a empresa ainda não ofereceu uma ferramenta pública que permitiria que indivíduos e empresas recriassem vozes a partir de um áudio curto, como faz o Voice Engine. A capacidade de recriar qualquer voz desse jeito, diz Harris, é o que faz com que a tecnologia seja perigosa. E a tecnologia pode ser bastante perigosa em ano eleitoral, como vivem os Estados Unidos, afirmou.
Em janeiro, os moradores de New Hampshire, nos EUA, receberam ligações com vozes de robô que os dissuadiram de votar nas primárias estaduais em uma voz que provavelmente foi gerada artificialmente para parecer a do presidente Joe Biden. A Comissão Federal de Comunicações posteriormente proibiu tais chamadas.
Harris disse que a OpenAI não tem planos imediatos de ganhar dinheiro com a tecnologia. Ele explica que a ferramenta pode ser particularmente útil para pessoas que perderam a voz devido a doenças ou acidentes.
Ele demonstrou como a tecnologia foi usada para recriar a voz de uma mulher depois que um câncer no cérebro deixou sequelas. Ela agora podia agora falar, diz ele, depois de fornecer uma breve gravação de uma apresentação que ela fez quando era estudante do ensino médio.
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.
Os comentários são exclusivos para assinantes do Estadão.