Turnê da Madonna que vem ao Brasil é uma das primeiras a usar IA generativa; entenda


Integração de IA em shows promete transformar o entretenimento, enquanto surgem preocupações éticas sobre o uso de deepfakes e manipulação de vídeo

Por Matt O’brien

Sempre que Madonna canta o hit dos anos 1980 “La Isla Bonita” em sua turnê que vem ao Brasil, imagens em movimento de nuvens rodopiantes em tons de pôr do sol são reproduzidas nas telas gigantes da arena atrás dela.

Para obter esse visual etéreo, a lenda do pop adotou um ramo ainda inexplorado da inteligência artificial generativa - a ferramenta de texto para vídeo. Digite algumas palavras - por exemplo, “pôr do sol surreal nas nuvens” ou “cachoeira na selva ao amanhecer” - e um vídeo instantâneo é criado.

Seguindo os passos dos chatbots de inteligência artificial (IA) e dos geradores de imagens estáticas, alguns entusiastas de vídeo com IA dizem que a tecnologia poderá transformar o entretenimento, permitindo que você escolha seu próprio filme com histórias e finais personalizados. Mas ainda há um longo caminho a percorrer antes que eles possam fazer isso, e muitas armadilhas éticas no caminho.

continua após a publicidade

Para os primeiros usuários, como Madonna, que há muito tempo ultrapassa os limites da arte, foi mais um experimento. Ela rejeitou uma versão anterior do visual do show “La Isla Bonita” que usava computação gráfica mais convencional para evocar um clima tropical.

“Tentamos usar CGI. Ficou bem sem graça e brega e ela não gostou”, disse Sasha Kasiuha, diretor de conteúdo da Madonna’s Celebration Tour, que se encerrará em maio na praia de Copacabana. “E então decidimos experimentar a IA”. A opção da cantora colocou ela em um outro hall menos conhecido: o de pioneira da IA generativa no mundo do entretenimento.

Inteligência artificial revoluciona espetáculos ao vivo, criando visuais únicos e personalizados, mas levanta questões éticas sobre a autenticidade das imagens REUTERS/Ricardo Moraes Foto: Ricardo Moraes/Reuters
continua após a publicidade

A OpenAI, fabricante do ChatGPT, deu uma pista do que pode ser uma tecnologia de texto para vídeo quando a empresa apresentou o Sora, uma nova ferramenta que ainda não está disponível publicamente. A equipe de Madonna experimentou um produto diferente da startup Runway, sediada em Nova York, que ajudou a criar a tecnologia pioneira ao lançar seu primeiro modelo público de texto para vídeo em março do ano passado. A empresa lançou uma versão mais avançada “Gen-2″ em junho do ano passado.

O CEO da Runway, Cristóbal Valenzuela, disse que, embora algumas pessoas vejam essas ferramentas como um “dispositivo mágico em que você digita uma palavra e, de alguma forma, ela conjura exatamente o que você tinha na cabeça”, as abordagens mais eficazes são feitas por profissionais criativos que buscam uma atualização para o software de edição digital de décadas atrás que já estão usando.

Ele disse que a Runway ainda não pode fazer um documentário completo. Mas ela pode ajudar a preencher alguns vídeos de fundo, ou b-roll - as tomadas e cenas de apoio que ajudam a contar a história.

continua após a publicidade

“Isso economiza talvez uma semana de trabalho”, disse Valenzuela. “A linha comum de muitos casos de uso é que as pessoas o utilizam como uma forma de aumentar ou acelerar algo que poderiam ter feito antes.”

Os clientes alvo da Runway são “grandes empresas de streaming, empresas de produção, empresas de pós-produção, empresas de efeitos visuais, equipes de marketing, empresas de publicidade. Muitas pessoas que fazem conteúdo para ganhar a vida”, disse Valenzuela.

Perigos e problemas de vídeos gerados por IA

continua após a publicidade

Sem salvaguardas eficazes, os geradores de vídeo com IA podem ameaçar as democracias com vídeos convincentes ( os deep fakes) de coisas que nunca aconteceram ou - como já acontece com os geradores de fotos - inundar a internet com cenas pornográficas falsas que retratam o que parecem ser pessoas reais com rostos reconhecíveis. Sob pressão dos órgãos reguladores, as principais empresas de tecnologia prometeram colocar marcas d’água nos resultados gerados por IA para ajudar a identificar o que é real.

Também estão surgindo disputas jurídicas de direitos autorais sobre os dados usados no treinamento dos sistemas de IA (nem a Runway nem a OpenAI divulgam suas fontes de dados). Além disso, há o temor de que, em algum momento, as máquinas de produção de vídeo possam substituir o trabalho e a arte humana.

continua após a publicidade

Por enquanto, os clipes de vídeo mais longos gerados por IA ainda são medidos em segundos e podem apresentar movimentos bruscos e falhas visíveis, como mãos e dedos distorcidos. Corrigir isso é “apenas uma questão de mais dados e mais treinamento”, além do poder de computação do qual esse treinamento depende, diz Alexander Waibel, professor de ciência da computação da Universidade Carnegie Mellon que pesquisa IA desde a década de 1970.

“Agora posso dizer: ‘Faça um vídeo de um coelho vestido de Napoleão andando pela cidade de Nova York’”, disse Waibel. “Ele sabe como é a cidade de Nova York, como é um coelho e como é Napoleão.”

O que é impressionante, diz ele, mas ainda está longe de criar uma história convincente.

continua após a publicidade

Antes de lançar seu modelo de primeira geração, a fama da Runway em termos de IA era como codesenvolvedora do gerador de imagens Stable Diffusion. Desde então, outra empresa, a Stability AI, sediada em Londres, assumiu o controle do desenvolvimento do Stable Diffusion.

Como funciona a tecnologia de geração de vídeos

A tecnologia de “modelo de difusão” subjacente à maioria dos principais geradores de imagens e vídeos de IA funciona mapeando ruídos ou dados aleatórios em imagens, destruindo efetivamente uma imagem original e, em seguida, prevendo a aparência de uma nova imagem. Ela toma emprestada uma ideia da física que pode ser usada para descrever, por exemplo, como o gás se difunde para fora.

“O que os modelos de difusão fazem é reverter esse processo”, diz Phillip Isola, professor associado de ciência da computação no Instituto de Tecnologia de Massachusetts. “Eles pegam a aleatoriedade e a convertem novamente em volume. Essa é a maneira de passar da aleatoriedade para o conteúdo. E é assim que você pode criar vídeos aleatórios.”

A geração de vídeos é mais complicada do que a de imagens estáticas porque precisa levar em conta a dinâmica temporal, ou seja, como os elementos do vídeo mudam com o passar do tempo e entre as sequências de quadros, disse Daniela Rus, outra professora do MIT que dirige o Laboratório de Ciência da Computação e Inteligência Artificial.

Rus disse que os recursos de computação necessários são “significativamente maiores do que os necessários para a geração de imagens estáticas” porque “isso envolve o processamento e a geração de vários quadros para cada segundo de vídeo”.

Tecnologia de texto para vídeo promete transformar o entretenimento, permitindo a personalização de filmes, mas enfrenta desafios éticos e técnicos ao lidar com deepfakes  Foto: Charles Sykes/Invision/AP

Isso não está impedindo que algumas empresas de tecnologia bem-sucedidas continuem tentando superar umas às outras na exibição da geração de vídeos com IA de maior qualidade em durações mais longas. Exigir descrições escritas para criar uma imagem foi apenas o começo. O Google demonstrou recentemente um novo projeto chamado Genie, que pode ser solicitado a transformar uma fotografia ou até mesmo um esboço em “uma variedade infinita” de mundos de videogame exploráveis.

No curto prazo, os vídeos gerados por IA provavelmente aparecerão em conteúdo educacional e de marketing, oferecendo uma alternativa mais barata do que a produção de filmagens originais ou a obtenção de vídeos de estoque, diz Aditi Singh, pesquisador da Cleveland State University que analisou o mercado de texto para vídeo.

Quando Madonna conversou pela primeira vez com sua equipe sobre IA, a “intenção principal não era: ‘Oh, veja, é um vídeo com IA’”, diz Kasiuha, o diretor de criação.

“Ela me perguntou: ‘Você pode usar uma dessas ferramentas de IA para deixar a imagem mais nítida, para garantir que ela pareça atual e de alta resolução?’” disse Kasiuha. “Ela adora quando você traz novas tecnologias e novos tipos de elementos visuais.”

Filmes mais longos gerados por IA já estão sendo feitos. A Runway organiza um festival anual de filmes com IA para apresentar esses trabalhos. Mas ainda não se sabe se é isso que o público humano escolherá assistir.

“Ainda acredito nos humanos”, diz Waibel. “Ainda acredito que acabará sendo uma simbiose em que uma IA propõe algo e um humano melhora ou orienta. Ou os humanos o farão e a IA o consertará.”

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Sempre que Madonna canta o hit dos anos 1980 “La Isla Bonita” em sua turnê que vem ao Brasil, imagens em movimento de nuvens rodopiantes em tons de pôr do sol são reproduzidas nas telas gigantes da arena atrás dela.

Para obter esse visual etéreo, a lenda do pop adotou um ramo ainda inexplorado da inteligência artificial generativa - a ferramenta de texto para vídeo. Digite algumas palavras - por exemplo, “pôr do sol surreal nas nuvens” ou “cachoeira na selva ao amanhecer” - e um vídeo instantâneo é criado.

Seguindo os passos dos chatbots de inteligência artificial (IA) e dos geradores de imagens estáticas, alguns entusiastas de vídeo com IA dizem que a tecnologia poderá transformar o entretenimento, permitindo que você escolha seu próprio filme com histórias e finais personalizados. Mas ainda há um longo caminho a percorrer antes que eles possam fazer isso, e muitas armadilhas éticas no caminho.

Para os primeiros usuários, como Madonna, que há muito tempo ultrapassa os limites da arte, foi mais um experimento. Ela rejeitou uma versão anterior do visual do show “La Isla Bonita” que usava computação gráfica mais convencional para evocar um clima tropical.

“Tentamos usar CGI. Ficou bem sem graça e brega e ela não gostou”, disse Sasha Kasiuha, diretor de conteúdo da Madonna’s Celebration Tour, que se encerrará em maio na praia de Copacabana. “E então decidimos experimentar a IA”. A opção da cantora colocou ela em um outro hall menos conhecido: o de pioneira da IA generativa no mundo do entretenimento.

Inteligência artificial revoluciona espetáculos ao vivo, criando visuais únicos e personalizados, mas levanta questões éticas sobre a autenticidade das imagens REUTERS/Ricardo Moraes Foto: Ricardo Moraes/Reuters

A OpenAI, fabricante do ChatGPT, deu uma pista do que pode ser uma tecnologia de texto para vídeo quando a empresa apresentou o Sora, uma nova ferramenta que ainda não está disponível publicamente. A equipe de Madonna experimentou um produto diferente da startup Runway, sediada em Nova York, que ajudou a criar a tecnologia pioneira ao lançar seu primeiro modelo público de texto para vídeo em março do ano passado. A empresa lançou uma versão mais avançada “Gen-2″ em junho do ano passado.

O CEO da Runway, Cristóbal Valenzuela, disse que, embora algumas pessoas vejam essas ferramentas como um “dispositivo mágico em que você digita uma palavra e, de alguma forma, ela conjura exatamente o que você tinha na cabeça”, as abordagens mais eficazes são feitas por profissionais criativos que buscam uma atualização para o software de edição digital de décadas atrás que já estão usando.

Ele disse que a Runway ainda não pode fazer um documentário completo. Mas ela pode ajudar a preencher alguns vídeos de fundo, ou b-roll - as tomadas e cenas de apoio que ajudam a contar a história.

“Isso economiza talvez uma semana de trabalho”, disse Valenzuela. “A linha comum de muitos casos de uso é que as pessoas o utilizam como uma forma de aumentar ou acelerar algo que poderiam ter feito antes.”

Os clientes alvo da Runway são “grandes empresas de streaming, empresas de produção, empresas de pós-produção, empresas de efeitos visuais, equipes de marketing, empresas de publicidade. Muitas pessoas que fazem conteúdo para ganhar a vida”, disse Valenzuela.

Perigos e problemas de vídeos gerados por IA

Sem salvaguardas eficazes, os geradores de vídeo com IA podem ameaçar as democracias com vídeos convincentes ( os deep fakes) de coisas que nunca aconteceram ou - como já acontece com os geradores de fotos - inundar a internet com cenas pornográficas falsas que retratam o que parecem ser pessoas reais com rostos reconhecíveis. Sob pressão dos órgãos reguladores, as principais empresas de tecnologia prometeram colocar marcas d’água nos resultados gerados por IA para ajudar a identificar o que é real.

Também estão surgindo disputas jurídicas de direitos autorais sobre os dados usados no treinamento dos sistemas de IA (nem a Runway nem a OpenAI divulgam suas fontes de dados). Além disso, há o temor de que, em algum momento, as máquinas de produção de vídeo possam substituir o trabalho e a arte humana.

Por enquanto, os clipes de vídeo mais longos gerados por IA ainda são medidos em segundos e podem apresentar movimentos bruscos e falhas visíveis, como mãos e dedos distorcidos. Corrigir isso é “apenas uma questão de mais dados e mais treinamento”, além do poder de computação do qual esse treinamento depende, diz Alexander Waibel, professor de ciência da computação da Universidade Carnegie Mellon que pesquisa IA desde a década de 1970.

“Agora posso dizer: ‘Faça um vídeo de um coelho vestido de Napoleão andando pela cidade de Nova York’”, disse Waibel. “Ele sabe como é a cidade de Nova York, como é um coelho e como é Napoleão.”

O que é impressionante, diz ele, mas ainda está longe de criar uma história convincente.

Antes de lançar seu modelo de primeira geração, a fama da Runway em termos de IA era como codesenvolvedora do gerador de imagens Stable Diffusion. Desde então, outra empresa, a Stability AI, sediada em Londres, assumiu o controle do desenvolvimento do Stable Diffusion.

Como funciona a tecnologia de geração de vídeos

A tecnologia de “modelo de difusão” subjacente à maioria dos principais geradores de imagens e vídeos de IA funciona mapeando ruídos ou dados aleatórios em imagens, destruindo efetivamente uma imagem original e, em seguida, prevendo a aparência de uma nova imagem. Ela toma emprestada uma ideia da física que pode ser usada para descrever, por exemplo, como o gás se difunde para fora.

“O que os modelos de difusão fazem é reverter esse processo”, diz Phillip Isola, professor associado de ciência da computação no Instituto de Tecnologia de Massachusetts. “Eles pegam a aleatoriedade e a convertem novamente em volume. Essa é a maneira de passar da aleatoriedade para o conteúdo. E é assim que você pode criar vídeos aleatórios.”

A geração de vídeos é mais complicada do que a de imagens estáticas porque precisa levar em conta a dinâmica temporal, ou seja, como os elementos do vídeo mudam com o passar do tempo e entre as sequências de quadros, disse Daniela Rus, outra professora do MIT que dirige o Laboratório de Ciência da Computação e Inteligência Artificial.

Rus disse que os recursos de computação necessários são “significativamente maiores do que os necessários para a geração de imagens estáticas” porque “isso envolve o processamento e a geração de vários quadros para cada segundo de vídeo”.

Tecnologia de texto para vídeo promete transformar o entretenimento, permitindo a personalização de filmes, mas enfrenta desafios éticos e técnicos ao lidar com deepfakes  Foto: Charles Sykes/Invision/AP

Isso não está impedindo que algumas empresas de tecnologia bem-sucedidas continuem tentando superar umas às outras na exibição da geração de vídeos com IA de maior qualidade em durações mais longas. Exigir descrições escritas para criar uma imagem foi apenas o começo. O Google demonstrou recentemente um novo projeto chamado Genie, que pode ser solicitado a transformar uma fotografia ou até mesmo um esboço em “uma variedade infinita” de mundos de videogame exploráveis.

No curto prazo, os vídeos gerados por IA provavelmente aparecerão em conteúdo educacional e de marketing, oferecendo uma alternativa mais barata do que a produção de filmagens originais ou a obtenção de vídeos de estoque, diz Aditi Singh, pesquisador da Cleveland State University que analisou o mercado de texto para vídeo.

Quando Madonna conversou pela primeira vez com sua equipe sobre IA, a “intenção principal não era: ‘Oh, veja, é um vídeo com IA’”, diz Kasiuha, o diretor de criação.

“Ela me perguntou: ‘Você pode usar uma dessas ferramentas de IA para deixar a imagem mais nítida, para garantir que ela pareça atual e de alta resolução?’” disse Kasiuha. “Ela adora quando você traz novas tecnologias e novos tipos de elementos visuais.”

Filmes mais longos gerados por IA já estão sendo feitos. A Runway organiza um festival anual de filmes com IA para apresentar esses trabalhos. Mas ainda não se sabe se é isso que o público humano escolherá assistir.

“Ainda acredito nos humanos”, diz Waibel. “Ainda acredito que acabará sendo uma simbiose em que uma IA propõe algo e um humano melhora ou orienta. Ou os humanos o farão e a IA o consertará.”

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Sempre que Madonna canta o hit dos anos 1980 “La Isla Bonita” em sua turnê que vem ao Brasil, imagens em movimento de nuvens rodopiantes em tons de pôr do sol são reproduzidas nas telas gigantes da arena atrás dela.

Para obter esse visual etéreo, a lenda do pop adotou um ramo ainda inexplorado da inteligência artificial generativa - a ferramenta de texto para vídeo. Digite algumas palavras - por exemplo, “pôr do sol surreal nas nuvens” ou “cachoeira na selva ao amanhecer” - e um vídeo instantâneo é criado.

Seguindo os passos dos chatbots de inteligência artificial (IA) e dos geradores de imagens estáticas, alguns entusiastas de vídeo com IA dizem que a tecnologia poderá transformar o entretenimento, permitindo que você escolha seu próprio filme com histórias e finais personalizados. Mas ainda há um longo caminho a percorrer antes que eles possam fazer isso, e muitas armadilhas éticas no caminho.

Para os primeiros usuários, como Madonna, que há muito tempo ultrapassa os limites da arte, foi mais um experimento. Ela rejeitou uma versão anterior do visual do show “La Isla Bonita” que usava computação gráfica mais convencional para evocar um clima tropical.

“Tentamos usar CGI. Ficou bem sem graça e brega e ela não gostou”, disse Sasha Kasiuha, diretor de conteúdo da Madonna’s Celebration Tour, que se encerrará em maio na praia de Copacabana. “E então decidimos experimentar a IA”. A opção da cantora colocou ela em um outro hall menos conhecido: o de pioneira da IA generativa no mundo do entretenimento.

Inteligência artificial revoluciona espetáculos ao vivo, criando visuais únicos e personalizados, mas levanta questões éticas sobre a autenticidade das imagens REUTERS/Ricardo Moraes Foto: Ricardo Moraes/Reuters

A OpenAI, fabricante do ChatGPT, deu uma pista do que pode ser uma tecnologia de texto para vídeo quando a empresa apresentou o Sora, uma nova ferramenta que ainda não está disponível publicamente. A equipe de Madonna experimentou um produto diferente da startup Runway, sediada em Nova York, que ajudou a criar a tecnologia pioneira ao lançar seu primeiro modelo público de texto para vídeo em março do ano passado. A empresa lançou uma versão mais avançada “Gen-2″ em junho do ano passado.

O CEO da Runway, Cristóbal Valenzuela, disse que, embora algumas pessoas vejam essas ferramentas como um “dispositivo mágico em que você digita uma palavra e, de alguma forma, ela conjura exatamente o que você tinha na cabeça”, as abordagens mais eficazes são feitas por profissionais criativos que buscam uma atualização para o software de edição digital de décadas atrás que já estão usando.

Ele disse que a Runway ainda não pode fazer um documentário completo. Mas ela pode ajudar a preencher alguns vídeos de fundo, ou b-roll - as tomadas e cenas de apoio que ajudam a contar a história.

“Isso economiza talvez uma semana de trabalho”, disse Valenzuela. “A linha comum de muitos casos de uso é que as pessoas o utilizam como uma forma de aumentar ou acelerar algo que poderiam ter feito antes.”

Os clientes alvo da Runway são “grandes empresas de streaming, empresas de produção, empresas de pós-produção, empresas de efeitos visuais, equipes de marketing, empresas de publicidade. Muitas pessoas que fazem conteúdo para ganhar a vida”, disse Valenzuela.

Perigos e problemas de vídeos gerados por IA

Sem salvaguardas eficazes, os geradores de vídeo com IA podem ameaçar as democracias com vídeos convincentes ( os deep fakes) de coisas que nunca aconteceram ou - como já acontece com os geradores de fotos - inundar a internet com cenas pornográficas falsas que retratam o que parecem ser pessoas reais com rostos reconhecíveis. Sob pressão dos órgãos reguladores, as principais empresas de tecnologia prometeram colocar marcas d’água nos resultados gerados por IA para ajudar a identificar o que é real.

Também estão surgindo disputas jurídicas de direitos autorais sobre os dados usados no treinamento dos sistemas de IA (nem a Runway nem a OpenAI divulgam suas fontes de dados). Além disso, há o temor de que, em algum momento, as máquinas de produção de vídeo possam substituir o trabalho e a arte humana.

Por enquanto, os clipes de vídeo mais longos gerados por IA ainda são medidos em segundos e podem apresentar movimentos bruscos e falhas visíveis, como mãos e dedos distorcidos. Corrigir isso é “apenas uma questão de mais dados e mais treinamento”, além do poder de computação do qual esse treinamento depende, diz Alexander Waibel, professor de ciência da computação da Universidade Carnegie Mellon que pesquisa IA desde a década de 1970.

“Agora posso dizer: ‘Faça um vídeo de um coelho vestido de Napoleão andando pela cidade de Nova York’”, disse Waibel. “Ele sabe como é a cidade de Nova York, como é um coelho e como é Napoleão.”

O que é impressionante, diz ele, mas ainda está longe de criar uma história convincente.

Antes de lançar seu modelo de primeira geração, a fama da Runway em termos de IA era como codesenvolvedora do gerador de imagens Stable Diffusion. Desde então, outra empresa, a Stability AI, sediada em Londres, assumiu o controle do desenvolvimento do Stable Diffusion.

Como funciona a tecnologia de geração de vídeos

A tecnologia de “modelo de difusão” subjacente à maioria dos principais geradores de imagens e vídeos de IA funciona mapeando ruídos ou dados aleatórios em imagens, destruindo efetivamente uma imagem original e, em seguida, prevendo a aparência de uma nova imagem. Ela toma emprestada uma ideia da física que pode ser usada para descrever, por exemplo, como o gás se difunde para fora.

“O que os modelos de difusão fazem é reverter esse processo”, diz Phillip Isola, professor associado de ciência da computação no Instituto de Tecnologia de Massachusetts. “Eles pegam a aleatoriedade e a convertem novamente em volume. Essa é a maneira de passar da aleatoriedade para o conteúdo. E é assim que você pode criar vídeos aleatórios.”

A geração de vídeos é mais complicada do que a de imagens estáticas porque precisa levar em conta a dinâmica temporal, ou seja, como os elementos do vídeo mudam com o passar do tempo e entre as sequências de quadros, disse Daniela Rus, outra professora do MIT que dirige o Laboratório de Ciência da Computação e Inteligência Artificial.

Rus disse que os recursos de computação necessários são “significativamente maiores do que os necessários para a geração de imagens estáticas” porque “isso envolve o processamento e a geração de vários quadros para cada segundo de vídeo”.

Tecnologia de texto para vídeo promete transformar o entretenimento, permitindo a personalização de filmes, mas enfrenta desafios éticos e técnicos ao lidar com deepfakes  Foto: Charles Sykes/Invision/AP

Isso não está impedindo que algumas empresas de tecnologia bem-sucedidas continuem tentando superar umas às outras na exibição da geração de vídeos com IA de maior qualidade em durações mais longas. Exigir descrições escritas para criar uma imagem foi apenas o começo. O Google demonstrou recentemente um novo projeto chamado Genie, que pode ser solicitado a transformar uma fotografia ou até mesmo um esboço em “uma variedade infinita” de mundos de videogame exploráveis.

No curto prazo, os vídeos gerados por IA provavelmente aparecerão em conteúdo educacional e de marketing, oferecendo uma alternativa mais barata do que a produção de filmagens originais ou a obtenção de vídeos de estoque, diz Aditi Singh, pesquisador da Cleveland State University que analisou o mercado de texto para vídeo.

Quando Madonna conversou pela primeira vez com sua equipe sobre IA, a “intenção principal não era: ‘Oh, veja, é um vídeo com IA’”, diz Kasiuha, o diretor de criação.

“Ela me perguntou: ‘Você pode usar uma dessas ferramentas de IA para deixar a imagem mais nítida, para garantir que ela pareça atual e de alta resolução?’” disse Kasiuha. “Ela adora quando você traz novas tecnologias e novos tipos de elementos visuais.”

Filmes mais longos gerados por IA já estão sendo feitos. A Runway organiza um festival anual de filmes com IA para apresentar esses trabalhos. Mas ainda não se sabe se é isso que o público humano escolherá assistir.

“Ainda acredito nos humanos”, diz Waibel. “Ainda acredito que acabará sendo uma simbiose em que uma IA propõe algo e um humano melhora ou orienta. Ou os humanos o farão e a IA o consertará.”

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Sempre que Madonna canta o hit dos anos 1980 “La Isla Bonita” em sua turnê que vem ao Brasil, imagens em movimento de nuvens rodopiantes em tons de pôr do sol são reproduzidas nas telas gigantes da arena atrás dela.

Para obter esse visual etéreo, a lenda do pop adotou um ramo ainda inexplorado da inteligência artificial generativa - a ferramenta de texto para vídeo. Digite algumas palavras - por exemplo, “pôr do sol surreal nas nuvens” ou “cachoeira na selva ao amanhecer” - e um vídeo instantâneo é criado.

Seguindo os passos dos chatbots de inteligência artificial (IA) e dos geradores de imagens estáticas, alguns entusiastas de vídeo com IA dizem que a tecnologia poderá transformar o entretenimento, permitindo que você escolha seu próprio filme com histórias e finais personalizados. Mas ainda há um longo caminho a percorrer antes que eles possam fazer isso, e muitas armadilhas éticas no caminho.

Para os primeiros usuários, como Madonna, que há muito tempo ultrapassa os limites da arte, foi mais um experimento. Ela rejeitou uma versão anterior do visual do show “La Isla Bonita” que usava computação gráfica mais convencional para evocar um clima tropical.

“Tentamos usar CGI. Ficou bem sem graça e brega e ela não gostou”, disse Sasha Kasiuha, diretor de conteúdo da Madonna’s Celebration Tour, que se encerrará em maio na praia de Copacabana. “E então decidimos experimentar a IA”. A opção da cantora colocou ela em um outro hall menos conhecido: o de pioneira da IA generativa no mundo do entretenimento.

Inteligência artificial revoluciona espetáculos ao vivo, criando visuais únicos e personalizados, mas levanta questões éticas sobre a autenticidade das imagens REUTERS/Ricardo Moraes Foto: Ricardo Moraes/Reuters

A OpenAI, fabricante do ChatGPT, deu uma pista do que pode ser uma tecnologia de texto para vídeo quando a empresa apresentou o Sora, uma nova ferramenta que ainda não está disponível publicamente. A equipe de Madonna experimentou um produto diferente da startup Runway, sediada em Nova York, que ajudou a criar a tecnologia pioneira ao lançar seu primeiro modelo público de texto para vídeo em março do ano passado. A empresa lançou uma versão mais avançada “Gen-2″ em junho do ano passado.

O CEO da Runway, Cristóbal Valenzuela, disse que, embora algumas pessoas vejam essas ferramentas como um “dispositivo mágico em que você digita uma palavra e, de alguma forma, ela conjura exatamente o que você tinha na cabeça”, as abordagens mais eficazes são feitas por profissionais criativos que buscam uma atualização para o software de edição digital de décadas atrás que já estão usando.

Ele disse que a Runway ainda não pode fazer um documentário completo. Mas ela pode ajudar a preencher alguns vídeos de fundo, ou b-roll - as tomadas e cenas de apoio que ajudam a contar a história.

“Isso economiza talvez uma semana de trabalho”, disse Valenzuela. “A linha comum de muitos casos de uso é que as pessoas o utilizam como uma forma de aumentar ou acelerar algo que poderiam ter feito antes.”

Os clientes alvo da Runway são “grandes empresas de streaming, empresas de produção, empresas de pós-produção, empresas de efeitos visuais, equipes de marketing, empresas de publicidade. Muitas pessoas que fazem conteúdo para ganhar a vida”, disse Valenzuela.

Perigos e problemas de vídeos gerados por IA

Sem salvaguardas eficazes, os geradores de vídeo com IA podem ameaçar as democracias com vídeos convincentes ( os deep fakes) de coisas que nunca aconteceram ou - como já acontece com os geradores de fotos - inundar a internet com cenas pornográficas falsas que retratam o que parecem ser pessoas reais com rostos reconhecíveis. Sob pressão dos órgãos reguladores, as principais empresas de tecnologia prometeram colocar marcas d’água nos resultados gerados por IA para ajudar a identificar o que é real.

Também estão surgindo disputas jurídicas de direitos autorais sobre os dados usados no treinamento dos sistemas de IA (nem a Runway nem a OpenAI divulgam suas fontes de dados). Além disso, há o temor de que, em algum momento, as máquinas de produção de vídeo possam substituir o trabalho e a arte humana.

Por enquanto, os clipes de vídeo mais longos gerados por IA ainda são medidos em segundos e podem apresentar movimentos bruscos e falhas visíveis, como mãos e dedos distorcidos. Corrigir isso é “apenas uma questão de mais dados e mais treinamento”, além do poder de computação do qual esse treinamento depende, diz Alexander Waibel, professor de ciência da computação da Universidade Carnegie Mellon que pesquisa IA desde a década de 1970.

“Agora posso dizer: ‘Faça um vídeo de um coelho vestido de Napoleão andando pela cidade de Nova York’”, disse Waibel. “Ele sabe como é a cidade de Nova York, como é um coelho e como é Napoleão.”

O que é impressionante, diz ele, mas ainda está longe de criar uma história convincente.

Antes de lançar seu modelo de primeira geração, a fama da Runway em termos de IA era como codesenvolvedora do gerador de imagens Stable Diffusion. Desde então, outra empresa, a Stability AI, sediada em Londres, assumiu o controle do desenvolvimento do Stable Diffusion.

Como funciona a tecnologia de geração de vídeos

A tecnologia de “modelo de difusão” subjacente à maioria dos principais geradores de imagens e vídeos de IA funciona mapeando ruídos ou dados aleatórios em imagens, destruindo efetivamente uma imagem original e, em seguida, prevendo a aparência de uma nova imagem. Ela toma emprestada uma ideia da física que pode ser usada para descrever, por exemplo, como o gás se difunde para fora.

“O que os modelos de difusão fazem é reverter esse processo”, diz Phillip Isola, professor associado de ciência da computação no Instituto de Tecnologia de Massachusetts. “Eles pegam a aleatoriedade e a convertem novamente em volume. Essa é a maneira de passar da aleatoriedade para o conteúdo. E é assim que você pode criar vídeos aleatórios.”

A geração de vídeos é mais complicada do que a de imagens estáticas porque precisa levar em conta a dinâmica temporal, ou seja, como os elementos do vídeo mudam com o passar do tempo e entre as sequências de quadros, disse Daniela Rus, outra professora do MIT que dirige o Laboratório de Ciência da Computação e Inteligência Artificial.

Rus disse que os recursos de computação necessários são “significativamente maiores do que os necessários para a geração de imagens estáticas” porque “isso envolve o processamento e a geração de vários quadros para cada segundo de vídeo”.

Tecnologia de texto para vídeo promete transformar o entretenimento, permitindo a personalização de filmes, mas enfrenta desafios éticos e técnicos ao lidar com deepfakes  Foto: Charles Sykes/Invision/AP

Isso não está impedindo que algumas empresas de tecnologia bem-sucedidas continuem tentando superar umas às outras na exibição da geração de vídeos com IA de maior qualidade em durações mais longas. Exigir descrições escritas para criar uma imagem foi apenas o começo. O Google demonstrou recentemente um novo projeto chamado Genie, que pode ser solicitado a transformar uma fotografia ou até mesmo um esboço em “uma variedade infinita” de mundos de videogame exploráveis.

No curto prazo, os vídeos gerados por IA provavelmente aparecerão em conteúdo educacional e de marketing, oferecendo uma alternativa mais barata do que a produção de filmagens originais ou a obtenção de vídeos de estoque, diz Aditi Singh, pesquisador da Cleveland State University que analisou o mercado de texto para vídeo.

Quando Madonna conversou pela primeira vez com sua equipe sobre IA, a “intenção principal não era: ‘Oh, veja, é um vídeo com IA’”, diz Kasiuha, o diretor de criação.

“Ela me perguntou: ‘Você pode usar uma dessas ferramentas de IA para deixar a imagem mais nítida, para garantir que ela pareça atual e de alta resolução?’” disse Kasiuha. “Ela adora quando você traz novas tecnologias e novos tipos de elementos visuais.”

Filmes mais longos gerados por IA já estão sendo feitos. A Runway organiza um festival anual de filmes com IA para apresentar esses trabalhos. Mas ainda não se sabe se é isso que o público humano escolherá assistir.

“Ainda acredito nos humanos”, diz Waibel. “Ainda acredito que acabará sendo uma simbiose em que uma IA propõe algo e um humano melhora ou orienta. Ou os humanos o farão e a IA o consertará.”

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.