O Spotify lançou nesta segunda-feira, 25, uma ferramenta de inteligência artificial (IA) para traduzir podcasts em vários idiomas, replicando a voz do apresentador original. O recurso, chamado “voice translation”, vai permitir que o usuário possa ouvir seu podcaster favorito “fluente” em qualquer língua e já tem episódios em teste.
Assim, a empresa espera disponibilizar uma espécie de “dublagem” de áudio para seus usuários da plataforma. O projeto ainda é experimental dentro da empresa e foi testado em alguns programas famosos como o dos atores Dax Shepard e Monica Padman.
Por meio da IA, o”‘voice translation” identifica a voz dos artistas e o conteúdo falado no podcast e faz as traduções, replicando características da fala dos próprios apresentadores, como entonação, timbre, tom e expressões. Na versão que vai ser disponibilizada pelo Spotify, é possível ouvir os apresentadores conversando em espanhol, como se a gravação fosse feita por eles mesmos em outro idioma.
“Ao combinar a própria voz do criador, o Voice Translation dá aos ouvintes de todo o mundo o poder de descobrir e se inspirar em novos podcasters de uma maneira mais autêntica do que nunca”, diz Ziad Sultan, vice-presidente de personalização. “Acreditamos que uma abordagem cuidadosa da IA pode ajudar a construir conexões mais profundas entre ouvintes e criadores, um componente-chave da missão do Spotify de liberar o potencial da criatividade humana.”
De acordo com o Spotify, os programas testes vão estar disponíveis para usuários do mundo todo nas próximas semanas, para traduções em espanhol, alemão e francês. A empresa está trabalhando com três episódios de podcasts : Lex Fridman Podcast – “Interview with Yuval Noah Harari”, Amchair Expert – “Kristen Bell, by the grace of god, returns” e The Diary of a CEO with Steven Bartlett – “Interview with Dr. Mindy Pelz”.
Um recurso semelhante já foi mostrado também pelo Google em maio, durante o evento Google I/O. Batizado de “Universal Translator”, a tecnologia usa IA para traduzir vídeos para um novo idioma imitando o tom de voz da pessoa que está falando e alinhando o movimento dos lábios do apresentador com o das falas traduzidas.
Ao receber um vídeo — no exemplo, uma palestra de um curso online gravado por uma mulher em inglês — o Universal Translator trabalha em quatro estágios até a versão final. Primeiro, o áudio é identificado e transcrito. Depois a IA traduz o conteúdo para o idioma e, em seguida, gera um arquivo de áudio correspondente ao discurso no novo idioma, mantendo o mesmo estilo e tom de voz do original.
Por fim, o próprio algoritmo consegue editar a imagem do vídeo para que os movimentos dos lábios de quem fala fiquem sincronizados com o áudio no novo idioma. Assim, é como se a pessoa tivesse pronunciado palavras que nunca saíram, de fato, de sua boca.