Durante toda sua carreira, o chef e apresentador Anthony Bourdain se acostumou a ampliar as fronteiras do mundo de seus telespectadores. Lançado em julho, o documentário “Roadrunner” tenta recontar em 118 minutos a complexa trajetória do chef e oferecer respostas para o chocante suicídio em 2018. Porém, foram necessários apenas 45 segundos de filme para que Bourdain expandisse horizontes uma vez mais, inaugurando a era em que máquinas são capazes de emular à perfeição a voz humana.
No trecho, é possível ouvir a voz de Bourdain lendo um e-mail enviado para um amigo. Mas tem um detalhe: ele nunca gravou as frases em questão. A voz do chefe foi recriada por meio de inteligência artificial (IA). A recriação, sem aviso prévio, causou desconforto - e serviu de aviso que os “deep dubs”, vozes sintéticas geradas por IA, estarão cada vez mais entre nós.
A fascinação das pessoas por recriar vozes não é novidade: imitadores sempre tiveram destaque, principalmente os humoristas. Já a construção de vozes por meio da tecnologia ocorre desde o final dos anos 50 - foi um desses dispositivos que inspirou a voz do robô HAL 9000 em 2001: Uma Odisseia no Espaço. Os novos avanços em IA, porém, colocam a síntese de voz em outro patamar.
A técnica mais comum para que máquinas “falassem”, usada até hoje em assistentes digitais como Alexa e Google Assistente, funcionava como uma colcha de retalhos: um humano grava frases e palavras, que são “coladas” de acordo com um roteiro quando a máquina precisa dar respostas. “Nos deep dubs, você coleta muitos exemplos da voz que quer recriar, e passa isso por um modelo estatístico, que captura os aspectos vocais que caracterizam aquela pessoa”, explica Fábio Cozman, professor da Escola Politécnica da Universidade de São Paulo.
Assim, a máquina consegue reproduzir timbre, sotaque, entonações e outras características do jeito de falar de cada pessoa. Ao contrário da técnica das falas pré-gravadas, o deep dub permite que a voz sintetizada fale palavras nunca ditas pelo dono da voz original. A técnica é “prima” dos deep fakes, que permite criar imagens sintetizadas de seres humanos.
É um objetivo diferente da imitação. “A imitação tem um caráter de caricatura. Então é bom exagerar nas tintas para que se torne mais atraente”, conta ao Estadão Marcelo Adnet. O humorista, um dos principais imitadores do País, lembra que esse é um dos primeiros aspectos do seu trabalho que chama a atenção das pessoas.
Assim como qualquer modelo de IA, os algoritmos de deep dub precisam de muitos exemplos daquilo que se planeja reproduzir para que aprendam a fazer igual. Em casos de celebridades e figuras públicas, já há farto material para sintetizar a voz - foi assim que a voz de Bourdain foi recriada. Mas isso está começando a mudar.
“Há dois anos, eram necessárias quatro horas de gravação. Mas já estão aparecendo sintomas no campo científico de que serão necessários apenas segundos. Ou seja, com um áudio de WhatsApp já seria possível clonar a sua voz”, explica Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG). De fato, já existem startups nos EUA e na Europa que prometem produzir vozes sintetizadas após receberem apenas algumas frases.
Entretenimento
“Para grande parte das pessoas já é quase impossível distinguir quando uma voz foi gerada por IA”, explica Soares. No caso de Bourdain, o público só ficou sabendo do uso de IA porque o diretor Morgan Neville revelou ter lançado mão da tecnologia.
Os especialistas explicam os caminhos possíveis para detectar uma voz sintetizada - todos indicam o uso não natural da fala. Entre eles estão as pausas entre as palavras, a falta de claridade na aplicação de alguns fonemas e a escolha de certas palavras. Além disso, padrões regulares de entonação, normalmente com ar “monótono”, também tendem a aparecer na tecnologia. Como toda IA, é possível imaginar também que as vozes sintéticas fiquem cada vez mais difíceis de serem identificadas.
Está claro que a tecnologia será usada no entretenimento, na dublagem de filmes, séries e games. Na exposição 'Eu, Ayrton Senna da Silva', aberta no último dia 8 no shopping VillaLobos (São Paulo), o estúdio canadense XCave, com representação no Brasil, sintetizou a voz do piloto com algoritmos da empresa ucraniana Respeecher. “O algoritmo combinou centenas de horas de gravação do Senna com as falas de um ator, que foi contratado para simular a forma de falar dele”, diz Rodrigo Hurtado, diretor criativo do XCave. Segundo ele, foi necessário usar um ator para completar os dados, pois a qualidade das gravações do piloto nem sempre eram úteis para a máquina.
A publicidade também promete ser um veículo para a tecnologia. Isso deve levantar questões sobre o direito sobre um timbre de voz - algo na linha de propriedade intelectual. Galvão Bueno, por exemplo, tem um timbre marcante, parte de sua marca pessoal. Como garantir que uma reprodução sintética da voz dele não será usada contra a sua vontade, anunciando produtos para os quais ele não foi remunerado?
A plataforma americana Veritone, por exemplo, já permite celebridades e figuras públicas licenciarem suas vozes. Enquanto isso, representantes dessas pessoas começam a se movimentar para avanços na área, que possam representar algum tipo de risco para os seus direitos
“Apesar do uso no entretenimento, a maior aplicação da tecnologia será no atendimento a clientes, principalmente idosos, em calls center”, diz Cozman. Vozes mais humanas, segundo ele, ajudam a reduzir o “vale da estranheza”, a sensação ruim que sentimos ao interagir com máquinas. Assim, o nosso conforto para tratar com sistemas eletrônicos aumentaria, reduzindo o muro que nos separa de máquinas.
Golpes e fake news
Apesar dos benefícios da tecnologia, há claros riscos. “Ela aumenta a sofisticação de atividades que enganam as pessoas”, diz Cozman. Desinformação com caráter político é uma delas. Outra é a possibilidade de estelionatários e fraudadores passarem a usar vozes como ferramentas de trabalho.
Em 2019, foi registrado uma tentativa de golpe na Inglaterra de US$ 243 mil. Os bandidos clonaram a voz do CEO da empresa e usaram isso para induzir um funcionário a fazer a transferência. No ano passado, criminosos usaram a mesma técnica para roubar US$ 35 milhões de um banco na Arábia Saudita, segundo o Wall Street Journal.
O Marco Legal da Inteligência Artificial, aprovado na Câmara no fim de setembro, tenta regular as nossas interações com máquinas. O texto, que segue em discussão no Senado, define que empresas devem alertar quando humanos são expostos a interações com robôs. Parece ser só uma forma de coibir a frustração de saber que Bourdain não leu o e-mail para o amigo, ou que o atendente de call center não é de carne e osso. Mas também é uma forma de enquadrar práticas criminosas com a tecnologia.
“Gostaria de ser avisado quando exposto a uma voz sintetizada”, diz Adnet. “As pessoas se confundem muito e isso pode ser uma arma muito perigosa”.
Segundo os especialistas, outra saída é educar a população sobre os deep dubs. Embora dependam de hardware potente para serem criadas, as vozes sintetizadas são menos exigentes do que os deep fakes de imagem.
Soares ressalta essa urgência. “As tecnologias de vozes por IA estão tocando a campainha da nossa casa, enquanto os vídeos sintetizados ainda estão no nosso bairro procurando o endereço”.