OpenAI, dona do ChatGPT, lança ferramenta para transcrever áudio

Plataforma cobra US$ 0,006 por minuto transcrito ou traduzido

Por Redação

02/03/2023 | 16h41

Depois do sucesso do ChatGPT, a OpenAI lançou quarta-feira, 1º, uma ferramenta de transcrição e tradução. Chamada de Whisper, a plataforma foi apresentada originalmente em setembro de 2022, mas agora ganhou uma API (interface de programação), que vai permitir a integração do serviço a outros softwares.

O Whisper é um sistema automático de código aberto que reconhece falas em diversos idiomas, sendo capaz de transcrevê-las e até traduzi-las para o inglês. O preço de uso do programa é de US$ 0,006 por minuto e aceita arquivos de áudio em formatos variados, como MP3, MP4, M4A, MPEG, WEBM e WAV.

Leia também

continua após a publicidade

De acordo com o presidente da OpenAI, Greg Brockman, a plataforma tem uma vantagem em relação às outras de mesmo perfil por ter sido treinada com 680 mil horas de dados multilíngues coletados da internet, o que a torna melhor em reconhecer sotaques, termos técnicos e ruídos.

Segundo veículos que já testaram o sistema, no entanto, o Whisper pode acabar confundindo sons de fundo e incluir palavras no texto, pois é uma ferramenta com a capacidade de prever palavras. Além disso, a plataforma pode ter um desempenho pouco satisfatório em alguns idiomas que não tem uma boa base de dados na web. Mesmo assim, a ferramenta vem sendo usada para melhorar outros aplicativos, como o de aprendizado de idiomas Speak, que usa inteligência artificial (IA).

Depois do sucesso do ChatGPT, a OpenAI lançou quarta-feira, 1º, uma ferramenta de transcrição e tradução. Chamada de Whisper, a plataforma foi apresentada originalmente em setembro de 2022, mas agora ganhou uma API (interface de programação), que vai permitir a integração do serviço a outros softwares.

O Whisper é um sistema automático de código aberto que reconhece falas em diversos idiomas, sendo capaz de transcrevê-las e até traduzi-las para o inglês. O preço de uso do programa é de US$ 0,006 por minuto e aceita arquivos de áudio em formatos variados, como MP3, MP4, M4A, MPEG, WEBM e WAV.

Leia também

De acordo com o presidente da OpenAI, Greg Brockman, a plataforma tem uma vantagem em relação às outras de mesmo perfil por ter sido treinada com 680 mil horas de dados multilíngues coletados da internet, o que a torna melhor em reconhecer sotaques, termos técnicos e ruídos.

Segundo veículos que já testaram o sistema, no entanto, o Whisper pode acabar confundindo sons de fundo e incluir palavras no texto, pois é uma ferramenta com a capacidade de prever palavras. Além disso, a plataforma pode ter um desempenho pouco satisfatório em alguns idiomas que não tem uma boa base de dados na web. Mesmo assim, a ferramenta vem sendo usada para melhorar outros aplicativos, como o de aprendizado de idiomas Speak, que usa inteligência artificial (IA).

Depois do sucesso do ChatGPT, a OpenAI lançou quarta-feira, 1º, uma ferramenta de transcrição e tradução. Chamada de Whisper, a plataforma foi apresentada originalmente em setembro de 2022, mas agora ganhou uma API (interface de programação), que vai permitir a integração do serviço a outros softwares.

O Whisper é um sistema automático de código aberto que reconhece falas em diversos idiomas, sendo capaz de transcrevê-las e até traduzi-las para o inglês. O preço de uso do programa é de US$ 0,006 por minuto e aceita arquivos de áudio em formatos variados, como MP3, MP4, M4A, MPEG, WEBM e WAV.

Leia também

De acordo com o presidente da OpenAI, Greg Brockman, a plataforma tem uma vantagem em relação às outras de mesmo perfil por ter sido treinada com 680 mil horas de dados multilíngues coletados da internet, o que a torna melhor em reconhecer sotaques, termos técnicos e ruídos.

Segundo veículos que já testaram o sistema, no entanto, o Whisper pode acabar confundindo sons de fundo e incluir palavras no texto, pois é uma ferramenta com a capacidade de prever palavras. Além disso, a plataforma pode ter um desempenho pouco satisfatório em alguns idiomas que não tem uma boa base de dados na web. Mesmo assim, a ferramenta vem sendo usada para melhorar outros aplicativos, como o de aprendizado de idiomas Speak, que usa inteligência artificial (IA).

Tudo Sobre