IA da Microsoft dá ‘vida’ a fotos estáticas de humanos em tempo real; veja vídeo

Tecnologia, que poderia ser usada para enganar pessoas, só será lançada quando for segura

Por Henrique Sampaio

18/04/2024 | 17h07
Atualização: 18/04/2024 | 17h12

Uma equipe de pesquisadores da Microsoft Research Lab, em Pequim, na China, apresentou o VASA-1, um novo modelo de inteligência artificial (IA) capaz de gerar vídeos realistas em tempo real de rostos humanos a partir de uma única foto e clipe de áudio. O resultado são vídeos curtos que dão à imagem estática movimentos, expressões faciais e sincronia labial extremamente convincentes, capazes de enganar um espectador menos atento.

A tecnologia também é capaz de animar imagens artísticas, como personagens fictícios e obras de arte, além de gerar falas em qualquer idioma e até mesmo cantorias. Para a geração de fala, é preciso incluir um clipe de áudio da voz desejada (que pode ser do indivíduo da foto ou não).

Tecnologia da Microsoft cria vídeo realistas de humanos a partir de fotos Foto: Microsoft/Divulgação

continua após a publicidade

A ferramenta também dá ao usuário controle de expressões faciais, direção do olhar, distância da cabeça, ângulo da câmera e outros ajustes granulares. Tudo isso pode ser manipulado em tempo real, como se fosse a tela de criação de personagem de um videogame. Os vídeos gerados possuem resolução de 512x512 pixels e alcançam até 40 quadros por segundo.

Uma demonstração da ferramenta em funcionamento pode ser vista no site da Microsoft.

continua após a publicidade

Reconhecendo os riscos

A equipe de pesquisadores por trás da ferramenta se diz ciente que a tecnologia poderia ser usada para enganar pessoas, com a criação de deepfakes, e que, por isso, só irá fazer a comercialização do produto quando houver certeza de que ela “será usada de forma responsável e de acordo com as regulamentações adequadas.”

Dentre os usos positivos que a equipe acredita que a tecnologia pode ser aplicada estão “melhorar a equidade educacional, aumentar a acessibilidade para pessoas com desafios de comunicação, oferecer companhia ou apoio terapêutico a quem precisa, entre muitos outros.”

Uma equipe de pesquisadores da Microsoft Research Lab, em Pequim, na China, apresentou o VASA-1, um novo modelo de inteligência artificial (IA) capaz de gerar vídeos realistas em tempo real de rostos humanos a partir de uma única foto e clipe de áudio. O resultado são vídeos curtos que dão à imagem estática movimentos, expressões faciais e sincronia labial extremamente convincentes, capazes de enganar um espectador menos atento.

A tecnologia também é capaz de animar imagens artísticas, como personagens fictícios e obras de arte, além de gerar falas em qualquer idioma e até mesmo cantorias. Para a geração de fala, é preciso incluir um clipe de áudio da voz desejada (que pode ser do indivíduo da foto ou não).

Tecnologia da Microsoft cria vídeo realistas de humanos a partir de fotos Foto: Microsoft/Divulgação

A ferramenta também dá ao usuário controle de expressões faciais, direção do olhar, distância da cabeça, ângulo da câmera e outros ajustes granulares. Tudo isso pode ser manipulado em tempo real, como se fosse a tela de criação de personagem de um videogame. Os vídeos gerados possuem resolução de 512x512 pixels e alcançam até 40 quadros por segundo.

Uma demonstração da ferramenta em funcionamento pode ser vista no site da Microsoft.

Reconhecendo os riscos

A equipe de pesquisadores por trás da ferramenta se diz ciente que a tecnologia poderia ser usada para enganar pessoas, com a criação de deepfakes, e que, por isso, só irá fazer a comercialização do produto quando houver certeza de que ela “será usada de forma responsável e de acordo com as regulamentações adequadas.”

Dentre os usos positivos que a equipe acredita que a tecnologia pode ser aplicada estão “melhorar a equidade educacional, aumentar a acessibilidade para pessoas com desafios de comunicação, oferecer companhia ou apoio terapêutico a quem precisa, entre muitos outros.”

Uma equipe de pesquisadores da Microsoft Research Lab, em Pequim, na China, apresentou o VASA-1, um novo modelo de inteligência artificial (IA) capaz de gerar vídeos realistas em tempo real de rostos humanos a partir de uma única foto e clipe de áudio. O resultado são vídeos curtos que dão à imagem estática movimentos, expressões faciais e sincronia labial extremamente convincentes, capazes de enganar um espectador menos atento.

A tecnologia também é capaz de animar imagens artísticas, como personagens fictícios e obras de arte, além de gerar falas em qualquer idioma e até mesmo cantorias. Para a geração de fala, é preciso incluir um clipe de áudio da voz desejada (que pode ser do indivíduo da foto ou não).

Tecnologia da Microsoft cria vídeo realistas de humanos a partir de fotos Foto: Microsoft/Divulgação

A ferramenta também dá ao usuário controle de expressões faciais, direção do olhar, distância da cabeça, ângulo da câmera e outros ajustes granulares. Tudo isso pode ser manipulado em tempo real, como se fosse a tela de criação de personagem de um videogame. Os vídeos gerados possuem resolução de 512x512 pixels e alcançam até 40 quadros por segundo.

Uma demonstração da ferramenta em funcionamento pode ser vista no site da Microsoft.

Reconhecendo os riscos

A equipe de pesquisadores por trás da ferramenta se diz ciente que a tecnologia poderia ser usada para enganar pessoas, com a criação de deepfakes, e que, por isso, só irá fazer a comercialização do produto quando houver certeza de que ela “será usada de forma responsável e de acordo com as regulamentações adequadas.”

Dentre os usos positivos que a equipe acredita que a tecnologia pode ser aplicada estão “melhorar a equidade educacional, aumentar a acessibilidade para pessoas com desafios de comunicação, oferecer companhia ou apoio terapêutico a quem precisa, entre muitos outros.”

Tudo Sobre