Por que o Sora e o Midjourney produzem imagens tão parecidas?

Na semana passada, a OpenAI, desenvolvedora do ChatGPT, revelou um novo modelo de inteligência artificial (IA) capaz de criar vídeos a partir de comandos de texto: o Sora. Veja exemplos aqui.

A ferramenta é similar aos geradores de imagens já existentes no mercado, como o DALL-E 3 (da OpenAI), o Stable Diffusion e o Midjourney. A principal diferença é que o Sora gera vídeos, enquanto os rivais produzem apenas fotos.

Segundo a OpenAI, o Sora pode entender pedidos com lugares, características, ângulos de filmagem e até lentes específicas em que a “gravação” deve ser feita. Também podem ser gerados vídeos de até 1.080p de qualidade.

continua após a publicidade

“Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real”, afirma a empresa.

Essa tecnologia toda, porém, não é tão original.

OpenAI lança Sora, IA para gerar vídeos Foto: OpenAI/Divulgação

continua após a publicidade

Quando se compara as imagens geradas pelo Sora com o rival Midjourney (que produz apenas imagens estáticas, vale frisar), nota-se que ambos os modelos de inteligência artificial parecem ser criadas pelo mesmo “autor” — as cores, ângulos e outras decisões estéticas são bastante similares.

No X, o usuário Nick St. Pierre criou um fio de publicações em que testa os mesmos comandos do Sora com o Midjourney. E os resultados são impressionantes na comparação entre o vídeo da OpenAI e as quatro imagens geradas pelo Midjourney.

continua após a publicidade

Comando: Um close-up extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, ele está pensando profundamente sobre a história do universo enquanto está sentado em um café em Paris, seus olhos focam nas pessoas fora da tela enquanto elas caminham e ele fica sentado quase imóvel, ele está vestido com um paletó de lã e uma camisa de botões, Ele usa boina marrom e óculos e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil de boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade de Paris ao fundo, profundidade de campo, filme cinematográfico de 35 mm.

Para o professor Diogo Cortiz, da PUC-SP e também pesquisador do Núcleo de Informação e Coordenação do Ponto Br (NIC.br), não é possível cravar com certeza o que leva dois serviços concorrentes a serem tão similares. Mas a resposta provavelmente está no material utilizado para treinar esses modelos.

“Muito possivelmente, a base de treinamento das ferramentas são muito próximas ou parecidas. Isso pode estar fazendo com que conteúdos criados por diferentes IAs sejam próximos”, explica Cortiz. Modelos com o Sora, ChatGPT, DALL-E 3, Midjourney e afins são treinados a partir de bilhões de dados disponíveis na internet, por onde as máquinas aprendem quais conteúdos replicar e o que descartar.

continua após a publicidade

Sora, da OpenAI, gera imagens impressionantes, mas ‘imita’ rival. Por que isso acontece?

Falta de transparência das empresas levanta questões sobre origem da base de dados utilizada para treinar modelos de IA

Leia mais

Leia mais

Leia mais

Sora, da OpenAI, gera imagens impressionantes, mas ‘imita’ rival. Por que isso acontece?

Falta de transparência das empresas levanta questões sobre origem da base de dados utilizada para treinar modelos de IA

Leia mais

Leia mais

Leia mais

Atualizamos nossa política de cookies