Na semana passada, a OpenAI, desenvolvedora do ChatGPT, revelou um novo modelo de inteligência artificial (IA) capaz de criar vídeos a partir de comandos de texto: o Sora. Veja exemplos aqui.
A ferramenta é similar aos geradores de imagens já existentes no mercado, como o DALL-E 3 (da OpenAI), o Stable Diffusion e o Midjourney. A principal diferença é que o Sora gera vídeos, enquanto os rivais produzem apenas fotos.
Segundo a OpenAI, o Sora pode entender pedidos com lugares, características, ângulos de filmagem e até lentes específicas em que a “gravação” deve ser feita. Também podem ser gerados vídeos de até 1.080p de qualidade.
“Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real”, afirma a empresa.
Essa tecnologia toda, porém, não é tão original.
Quando se compara as imagens geradas pelo Sora com o rival Midjourney (que produz apenas imagens estáticas, vale frisar), nota-se que ambos os modelos de inteligência artificial parecem ser criadas pelo mesmo “autor” — as cores, ângulos e outras decisões estéticas são bastante similares.
No X, o usuário Nick St. Pierre criou um fio de publicações em que testa os mesmos comandos do Sora com o Midjourney. E os resultados são impressionantes na comparação entre o vídeo da OpenAI e as quatro imagens geradas pelo Midjourney.
Comando: Um close-up extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, ele está pensando profundamente sobre a história do universo enquanto está sentado em um café em Paris, seus olhos focam nas pessoas fora da tela enquanto elas caminham e ele fica sentado quase imóvel, ele está vestido com um paletó de lã e uma camisa de botões, Ele usa boina marrom e óculos e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil de boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade de Paris ao fundo, profundidade de campo, filme cinematográfico de 35 mm.
Para o professor Diogo Cortiz, da PUC-SP e também pesquisador do Núcleo de Informação e Coordenação do Ponto Br (NIC.br), não é possível cravar com certeza o que leva dois serviços concorrentes a serem tão similares. Mas a resposta provavelmente está no material utilizado para treinar esses modelos.
“Muito possivelmente, a base de treinamento das ferramentas são muito próximas ou parecidas. Isso pode estar fazendo com que conteúdos criados por diferentes IAs sejam próximos”, explica Cortiz. Modelos com o Sora, ChatGPT, DALL-E 3, Midjourney e afins são treinados a partir de bilhões de dados disponíveis na internet, por onde as máquinas aprendem quais conteúdos replicar e o que descartar.
Leia mais
O pesquisador cita que há vários repositórios de uso livre para serem utilizados por empresas como OpenAI e Midjourney — estas, por sua vez, não explicam quais foram os bancos de palavras e imagens utilizados. “Esses modelos de IA são bons em criar padrões das imagens a partir dos dados existentes. Não vão sair imagens iguais, mas com padrões parecidos, daí a semelhança estética entre eles”, diz Cortiz.
A falta de transparência dessas ferramentas, cujos impactos ainda são desconhecidos para a sociedade, precisa ser discutida pela sociedade, defende o professor da PUC-SP. “Do ponto de vista ético e regulatório, é uma tecnologia poderosa e sensível, com diversas consequências pra sociedade, que precisa saber como esses modelos são treinados”, diz.
Em dezembro, o jornal americano New York Times processou a OpenAI e a Microsoft (principal parceria comercial da startup americana de inteligência artificial e sócia majoritária da empresa) pelo uso não autorizado do conteúdo publicado pelo diário ao longo dos anos para treinar o ChatGPT. A startup nega, dizendo que colaborou com organizações noticiosas.