Sora, da OpenAI, gera imagens impressionantes, mas ‘imita’ rival. Por que isso acontece?


Falta de transparência das empresas levanta questões sobre origem da base de dados utilizada para treinar modelos de IA

Por Guilherme Guerra

Na semana passada, a OpenAI, desenvolvedora do ChatGPT, revelou um novo modelo de inteligência artificial (IA) capaz de criar vídeos a partir de comandos de texto: o Sora. Veja exemplos aqui.

A ferramenta é similar aos geradores de imagens já existentes no mercado, como o DALL-E 3 (da OpenAI), o Stable Diffusion e o Midjourney. A principal diferença é que o Sora gera vídeos, enquanto os rivais produzem apenas fotos.

Segundo a OpenAI, o Sora pode entender pedidos com lugares, características, ângulos de filmagem e até lentes específicas em que a “gravação” deve ser feita. Também podem ser gerados vídeos de até 1.080p de qualidade.

continua após a publicidade

“Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real”, afirma a empresa.

Essa tecnologia toda, porém, não é tão original.

OpenAI lança Sora, IA para gerar vídeos Foto: OpenAI/Divulgação
continua após a publicidade

Quando se compara as imagens geradas pelo Sora com o rival Midjourney (que produz apenas imagens estáticas, vale frisar), nota-se que ambos os modelos de inteligência artificial parecem ser criadas pelo mesmo “autor” — as cores, ângulos e outras decisões estéticas são bastante similares.

No X, o usuário Nick St. Pierre criou um fio de publicações em que testa os mesmos comandos do Sora com o Midjourney. E os resultados são impressionantes na comparação entre o vídeo da OpenAI e as quatro imagens geradas pelo Midjourney.

continua após a publicidade

Comando: Um close-up extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, ele está pensando profundamente sobre a história do universo enquanto está sentado em um café em Paris, seus olhos focam nas pessoas fora da tela enquanto elas caminham e ele fica sentado quase imóvel, ele está vestido com um paletó de lã e uma camisa de botões, Ele usa boina marrom e óculos e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil de boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade de Paris ao fundo, profundidade de campo, filme cinematográfico de 35 mm.

Para o professor Diogo Cortiz, da PUC-SP e também pesquisador do Núcleo de Informação e Coordenação do Ponto Br (NIC.br), não é possível cravar com certeza o que leva dois serviços concorrentes a serem tão similares. Mas a resposta provavelmente está no material utilizado para treinar esses modelos.

“Muito possivelmente, a base de treinamento das ferramentas são muito próximas ou parecidas. Isso pode estar fazendo com que conteúdos criados por diferentes IAs sejam próximos”, explica Cortiz. Modelos com o Sora, ChatGPT, DALL-E 3, Midjourney e afins são treinados a partir de bilhões de dados disponíveis na internet, por onde as máquinas aprendem quais conteúdos replicar e o que descartar.

continua após a publicidade

O pesquisador cita que há vários repositórios de uso livre para serem utilizados por empresas como OpenAI e Midjourney — estas, por sua vez, não explicam quais foram os bancos de palavras e imagens utilizados. “Esses modelos de IA são bons em criar padrões das imagens a partir dos dados existentes. Não vão sair imagens iguais, mas com padrões parecidos, daí a semelhança estética entre eles”, diz Cortiz.

A falta de transparência dessas ferramentas, cujos impactos ainda são desconhecidos para a sociedade, precisa ser discutida pela sociedade, defende o professor da PUC-SP. “Do ponto de vista ético e regulatório, é uma tecnologia poderosa e sensível, com diversas consequências pra sociedade, que precisa saber como esses modelos são treinados”, diz.

continua após a publicidade

Em dezembro, o jornal americano New York Times processou a OpenAI e a Microsoft (principal parceria comercial da startup americana de inteligência artificial e sócia majoritária da empresa) pelo uso não autorizado do conteúdo publicado pelo diário ao longo dos anos para treinar o ChatGPT. A startup nega, dizendo que colaborou com organizações noticiosas.

Na semana passada, a OpenAI, desenvolvedora do ChatGPT, revelou um novo modelo de inteligência artificial (IA) capaz de criar vídeos a partir de comandos de texto: o Sora. Veja exemplos aqui.

A ferramenta é similar aos geradores de imagens já existentes no mercado, como o DALL-E 3 (da OpenAI), o Stable Diffusion e o Midjourney. A principal diferença é que o Sora gera vídeos, enquanto os rivais produzem apenas fotos.

Segundo a OpenAI, o Sora pode entender pedidos com lugares, características, ângulos de filmagem e até lentes específicas em que a “gravação” deve ser feita. Também podem ser gerados vídeos de até 1.080p de qualidade.

“Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real”, afirma a empresa.

Essa tecnologia toda, porém, não é tão original.

OpenAI lança Sora, IA para gerar vídeos Foto: OpenAI/Divulgação

Quando se compara as imagens geradas pelo Sora com o rival Midjourney (que produz apenas imagens estáticas, vale frisar), nota-se que ambos os modelos de inteligência artificial parecem ser criadas pelo mesmo “autor” — as cores, ângulos e outras decisões estéticas são bastante similares.

No X, o usuário Nick St. Pierre criou um fio de publicações em que testa os mesmos comandos do Sora com o Midjourney. E os resultados são impressionantes na comparação entre o vídeo da OpenAI e as quatro imagens geradas pelo Midjourney.

Comando: Um close-up extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, ele está pensando profundamente sobre a história do universo enquanto está sentado em um café em Paris, seus olhos focam nas pessoas fora da tela enquanto elas caminham e ele fica sentado quase imóvel, ele está vestido com um paletó de lã e uma camisa de botões, Ele usa boina marrom e óculos e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil de boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade de Paris ao fundo, profundidade de campo, filme cinematográfico de 35 mm.

Para o professor Diogo Cortiz, da PUC-SP e também pesquisador do Núcleo de Informação e Coordenação do Ponto Br (NIC.br), não é possível cravar com certeza o que leva dois serviços concorrentes a serem tão similares. Mas a resposta provavelmente está no material utilizado para treinar esses modelos.

“Muito possivelmente, a base de treinamento das ferramentas são muito próximas ou parecidas. Isso pode estar fazendo com que conteúdos criados por diferentes IAs sejam próximos”, explica Cortiz. Modelos com o Sora, ChatGPT, DALL-E 3, Midjourney e afins são treinados a partir de bilhões de dados disponíveis na internet, por onde as máquinas aprendem quais conteúdos replicar e o que descartar.

O pesquisador cita que há vários repositórios de uso livre para serem utilizados por empresas como OpenAI e Midjourney — estas, por sua vez, não explicam quais foram os bancos de palavras e imagens utilizados. “Esses modelos de IA são bons em criar padrões das imagens a partir dos dados existentes. Não vão sair imagens iguais, mas com padrões parecidos, daí a semelhança estética entre eles”, diz Cortiz.

A falta de transparência dessas ferramentas, cujos impactos ainda são desconhecidos para a sociedade, precisa ser discutida pela sociedade, defende o professor da PUC-SP. “Do ponto de vista ético e regulatório, é uma tecnologia poderosa e sensível, com diversas consequências pra sociedade, que precisa saber como esses modelos são treinados”, diz.

Em dezembro, o jornal americano New York Times processou a OpenAI e a Microsoft (principal parceria comercial da startup americana de inteligência artificial e sócia majoritária da empresa) pelo uso não autorizado do conteúdo publicado pelo diário ao longo dos anos para treinar o ChatGPT. A startup nega, dizendo que colaborou com organizações noticiosas.

Na semana passada, a OpenAI, desenvolvedora do ChatGPT, revelou um novo modelo de inteligência artificial (IA) capaz de criar vídeos a partir de comandos de texto: o Sora. Veja exemplos aqui.

A ferramenta é similar aos geradores de imagens já existentes no mercado, como o DALL-E 3 (da OpenAI), o Stable Diffusion e o Midjourney. A principal diferença é que o Sora gera vídeos, enquanto os rivais produzem apenas fotos.

Segundo a OpenAI, o Sora pode entender pedidos com lugares, características, ângulos de filmagem e até lentes específicas em que a “gravação” deve ser feita. Também podem ser gerados vídeos de até 1.080p de qualidade.

“Estamos ensinando a IA a entender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exijam interação no mundo real”, afirma a empresa.

Essa tecnologia toda, porém, não é tão original.

OpenAI lança Sora, IA para gerar vídeos Foto: OpenAI/Divulgação

Quando se compara as imagens geradas pelo Sora com o rival Midjourney (que produz apenas imagens estáticas, vale frisar), nota-se que ambos os modelos de inteligência artificial parecem ser criadas pelo mesmo “autor” — as cores, ângulos e outras decisões estéticas são bastante similares.

No X, o usuário Nick St. Pierre criou um fio de publicações em que testa os mesmos comandos do Sora com o Midjourney. E os resultados são impressionantes na comparação entre o vídeo da OpenAI e as quatro imagens geradas pelo Midjourney.

Comando: Um close-up extremo de um homem de cabelos grisalhos e barba na casa dos 60 anos, ele está pensando profundamente sobre a história do universo enquanto está sentado em um café em Paris, seus olhos focam nas pessoas fora da tela enquanto elas caminham e ele fica sentado quase imóvel, ele está vestido com um paletó de lã e uma camisa de botões, Ele usa boina marrom e óculos e tem uma aparência muito professoral. No final, ele oferece um sorriso sutil de boca fechada, como se tivesse encontrado a resposta para o mistério da vida. A iluminação é muito cinematográfica, com a luz dourada e as ruas e a cidade de Paris ao fundo, profundidade de campo, filme cinematográfico de 35 mm.

Para o professor Diogo Cortiz, da PUC-SP e também pesquisador do Núcleo de Informação e Coordenação do Ponto Br (NIC.br), não é possível cravar com certeza o que leva dois serviços concorrentes a serem tão similares. Mas a resposta provavelmente está no material utilizado para treinar esses modelos.

“Muito possivelmente, a base de treinamento das ferramentas são muito próximas ou parecidas. Isso pode estar fazendo com que conteúdos criados por diferentes IAs sejam próximos”, explica Cortiz. Modelos com o Sora, ChatGPT, DALL-E 3, Midjourney e afins são treinados a partir de bilhões de dados disponíveis na internet, por onde as máquinas aprendem quais conteúdos replicar e o que descartar.

O pesquisador cita que há vários repositórios de uso livre para serem utilizados por empresas como OpenAI e Midjourney — estas, por sua vez, não explicam quais foram os bancos de palavras e imagens utilizados. “Esses modelos de IA são bons em criar padrões das imagens a partir dos dados existentes. Não vão sair imagens iguais, mas com padrões parecidos, daí a semelhança estética entre eles”, diz Cortiz.

A falta de transparência dessas ferramentas, cujos impactos ainda são desconhecidos para a sociedade, precisa ser discutida pela sociedade, defende o professor da PUC-SP. “Do ponto de vista ético e regulatório, é uma tecnologia poderosa e sensível, com diversas consequências pra sociedade, que precisa saber como esses modelos são treinados”, diz.

Em dezembro, o jornal americano New York Times processou a OpenAI e a Microsoft (principal parceria comercial da startup americana de inteligência artificial e sócia majoritária da empresa) pelo uso não autorizado do conteúdo publicado pelo diário ao longo dos anos para treinar o ChatGPT. A startup nega, dizendo que colaborou com organizações noticiosas.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.