Por que o Sora e o Midjourney produzem imagens tão parecidas?

Na semana passada, a OpenAI, desenvolvedora do ChatGPT, revelou um novo modelo de inteligência artificial (IA) capaz de criar vídeos a partir de comandos de texto: o Sora. Veja exemplos aqui.

A ferramenta é similar aos geradores de imagens já existentes no mercado, como o DALL-E 3 (da OpenAI), o Stable Diffusion e o Midjourney. A principal diferença é que o Sora gera vídeos, enquanto os rivais produzem apenas fotos.

Segundo a OpenAI, o Sora pode entender pedidos com lugares, características, ângulos de filmagem e até lentes específicas em que a “gravação” deve ser feita. Também podem ser gerados vídeos de até 1.080p de qualidade.

“Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real”, afirma a empresa.

Essa tecnologia toda, porém, não é tão original.

OpenAI lança Sora, IA para gerar vídeos Foto: OpenAI/Divulgação

Quando se compara as imagens geradas pelo Sora com o rival Midjourney (que produz apenas imagens estáticas, vale frisar), nota-se que ambos os modelos de inteligência artificial parecem ser criadas pelo mesmo “autor” — as cores, ângulos e outras decisões estéticas são bastante similares.

No X, o usuário Nick St. Pierre criou um fio de publicações em que testa os mesmos comandos do Sora com o Midjourney. E os resultados são impressionantes na comparação entre o vídeo da OpenAI e as quatro imagens geradas pelo Midjourney.

Comando: Um close-up extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, ele está pensando profundamente sobre a história do universo enquanto está sentado em um café em Paris, seus olhos focam nas pessoas fora da tela enquanto elas caminham e ele fica sentado quase imóvel, ele está vestido com um paletó de lã e uma camisa de botões, Ele usa boina marrom e óculos e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil de boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade de Paris ao fundo, profundidade de campo, filme cinematográfico de 35 mm.

Para o professor Diogo Cortiz, da PUC-SP e também pesquisador do Núcleo de Informação e Coordenação do Ponto Br (NIC.br), não é possível cravar com certeza o que leva dois serviços concorrentes a serem tão similares. Mas a resposta provavelmente está no material utilizado para treinar esses modelos.

“Muito possivelmente, a base de treinamento das ferramentas são muito próximas ou parecidas. Isso pode estar fazendo com que conteúdos criados por diferentes IAs sejam próximos”, explica Cortiz. Modelos com o Sora, ChatGPT, DALL-E 3, Midjourney e afins são treinados a partir de bilhões de dados disponíveis na internet, por onde as máquinas aprendem quais conteúdos replicar e o que descartar.

Sora, da OpenAI, gera imagens impressionantes, mas ‘imita’ rival. Por que isso acontece?

Falta de transparência das empresas levanta questões sobre origem da base de dados utilizada para treinar modelos de IA

Leia mais

Últimas: Empresas

ChatGPT no WhatsApp, ‘super IA’ e Sora: veja toda a surra de anúncios da OpenAI em dezembro

Nova IA da OpenAI dá sinais de superinteligência e empresa convoca testes de segurança

ChatGPT agora está mais integrado com outros apps; veja como funciona

Amazon acabou com o home office, mas ainda não há escritório disponível para todos

Agora é possível falar com o ChatGPT diretamente no WhatsApp; veja como funciona

Mais lidas

Pilares da IA dão sinais de esgotamento e colocam em xeque o futuro da tecnologia

Quer trabalhar com tecnologia em 2025? Veja o que é necessário para ir além da programação

Os melhores comandos no ChatGPT para aprender inglês

Não há salvação: toda rede social acaba virando terra arrasada; leia análise

Nova IA da OpenAI dá sinais de superinteligência e empresa convoca testes de segurança