Microsoft desenvolve IA que ‘imita’ qualquer voz humana em apenas três segundos; ouça


Tecnologia foi apresentada na última semana e pode ser opção para acabar com ‘vozes mecânicas’ em ferramentas de texto

Por Redação
Atualização:

A Microsoft apresentou, na última semana, uma inteligência artificial (IA) capaz de imitar vozes de pessoas em poucos segundos, revelando o fortalecimento do uso de áudio para alimentar algoritmos chamados text-to-speech. Chamado de VALL-E, a IA precisa de apenas três segundos para ouvir, sintetizar e imitar uma voz humana em diferentes contextos.

Segundo a empresa, esse é um novo modelo de linguagem para síntese de texto para fala (text-to-speech, TTS na sigla em inglês), que visa tornar mais natural a forma com que textos podem ser transformados em áudios — uma tentativa de evitar a voz mecânica ou despersonalizada, de assistentes de áudio ou aplicativos como Google Tradutor, por exemplo).

Para isso, mais de 60 mil horas de gravações serviram de treino para que a IA pudesse identificar diferentes características e tom de voz humano, em situações distintas de humor e de ambiente externo.

continua após a publicidade

Nos exemplos apresentados pela Microsoft, amostras de áudio de bancos como o LibriSpeech Samples e VCTK Samples são utilizados como base para gerar falas de textos pré-definidos. Assim, após a identificação da entonação e de fatores como frequência e timbre, o texto é “imitado” pela inteligência com a mesma voz ouvida na amostra.

continua após a publicidade

As gravações, que serviram de base para o algoritmo, porém, foram feitas todas em inglês, único idioma que o VALL-E suporta até o momento. O resultado, de acordo com a Microsoft, oferece a preservação “da emoção do locutor e o ambiente acústico do prompt acústico na síntese”.

Outro ponto do VALL-E destacado pela Microsoft é a possibilidade de combinar suas ferramentas com outros tipos de IA, como a GPT-3, por exemplo, um gerador conversacional de textos da startup americana OpenAI. Ambas as tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.

A Microsoft apresentou, na última semana, uma inteligência artificial (IA) capaz de imitar vozes de pessoas em poucos segundos, revelando o fortalecimento do uso de áudio para alimentar algoritmos chamados text-to-speech. Chamado de VALL-E, a IA precisa de apenas três segundos para ouvir, sintetizar e imitar uma voz humana em diferentes contextos.

Segundo a empresa, esse é um novo modelo de linguagem para síntese de texto para fala (text-to-speech, TTS na sigla em inglês), que visa tornar mais natural a forma com que textos podem ser transformados em áudios — uma tentativa de evitar a voz mecânica ou despersonalizada, de assistentes de áudio ou aplicativos como Google Tradutor, por exemplo).

Para isso, mais de 60 mil horas de gravações serviram de treino para que a IA pudesse identificar diferentes características e tom de voz humano, em situações distintas de humor e de ambiente externo.

Nos exemplos apresentados pela Microsoft, amostras de áudio de bancos como o LibriSpeech Samples e VCTK Samples são utilizados como base para gerar falas de textos pré-definidos. Assim, após a identificação da entonação e de fatores como frequência e timbre, o texto é “imitado” pela inteligência com a mesma voz ouvida na amostra.

As gravações, que serviram de base para o algoritmo, porém, foram feitas todas em inglês, único idioma que o VALL-E suporta até o momento. O resultado, de acordo com a Microsoft, oferece a preservação “da emoção do locutor e o ambiente acústico do prompt acústico na síntese”.

Outro ponto do VALL-E destacado pela Microsoft é a possibilidade de combinar suas ferramentas com outros tipos de IA, como a GPT-3, por exemplo, um gerador conversacional de textos da startup americana OpenAI. Ambas as tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.

A Microsoft apresentou, na última semana, uma inteligência artificial (IA) capaz de imitar vozes de pessoas em poucos segundos, revelando o fortalecimento do uso de áudio para alimentar algoritmos chamados text-to-speech. Chamado de VALL-E, a IA precisa de apenas três segundos para ouvir, sintetizar e imitar uma voz humana em diferentes contextos.

Segundo a empresa, esse é um novo modelo de linguagem para síntese de texto para fala (text-to-speech, TTS na sigla em inglês), que visa tornar mais natural a forma com que textos podem ser transformados em áudios — uma tentativa de evitar a voz mecânica ou despersonalizada, de assistentes de áudio ou aplicativos como Google Tradutor, por exemplo).

Para isso, mais de 60 mil horas de gravações serviram de treino para que a IA pudesse identificar diferentes características e tom de voz humano, em situações distintas de humor e de ambiente externo.

Nos exemplos apresentados pela Microsoft, amostras de áudio de bancos como o LibriSpeech Samples e VCTK Samples são utilizados como base para gerar falas de textos pré-definidos. Assim, após a identificação da entonação e de fatores como frequência e timbre, o texto é “imitado” pela inteligência com a mesma voz ouvida na amostra.

As gravações, que serviram de base para o algoritmo, porém, foram feitas todas em inglês, único idioma que o VALL-E suporta até o momento. O resultado, de acordo com a Microsoft, oferece a preservação “da emoção do locutor e o ambiente acústico do prompt acústico na síntese”.

Outro ponto do VALL-E destacado pela Microsoft é a possibilidade de combinar suas ferramentas com outros tipos de IA, como a GPT-3, por exemplo, um gerador conversacional de textos da startup americana OpenAI. Ambas as tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.