ChatGPT consegue ver fotos? Testamos as habilidades do chatbot para analisar imagens


Veja como a ferramenta da OpenAI se sai em diferentes tarefas que envolvem fotos

Por Alice Labate

Em março, a OpenAI, empresa criadora do sistema de inteligência artificial (IA) ChatGPT, lançou o mais recente modelo da IA que alimenta o programa: o GPT-4 - o modelo está disponível apenas na versão paga do chatbot com a assinatura ChatGPT Plus.

Em setembro, porém, a IA ganhou uma nova capacidade: ‘enxergar fotos’. Ou seja, o usuário consegue enviar uma imagem e pedir para que a IA a interprete e responda perguntas sobre ela, por exemplo. A capacidade de lidar com diferentes tipos de dados se chama multimodalidade, e é um tipo de recurso visto também no Bard, do Google, e no Bing, da Microsoft.

Abaixo, veja como o chatbot se sai em nove tarefas diferentes envolvendo reconhecimento de imagem.

continua após a publicidade

Identificar idiomas e traduzir textos em outras línguas

Se o usuário estiver com um livro em mãos ou qualquer outro texto escrito em um idioma que não entende, basta enviar uma imagem dele para o ChatGPT (em sua versão GPT-4), que a tradução quase instantânea.

Alguns exemplos de comando para esse tipo de situação seriam: “Traduza este texto”, “Qual é o idioma?” ou “O que está escrito?”.

continua após a publicidade
Nova ferramenta do ChatGPT permite que o chatbot analise textos escritos e os traduza Foto: Alice Labate/Estadão

Explicar e analisar dados

O ChatGPT, em sua versão mais recente, também é capaz de computar e interpretar os dados de gráficos e tabelas. Para que o sistema analise os dados desejados, é só enviar a imagem do gráfico ou tabela e pedir para o chatbot “Explicar os dados”, por exemplo.

continua após a publicidade
ChatGPT é capaz de analisar dados conforme o comando Foto: Alice Labate/Estadão

Identificar um prato e dar a receita

Já comeu um prato que gostou muito e quis saber a receita? Agora essa tarefa ficou muito mais fácil.

continua após a publicidade

Com uma simples foto da comida, o ChatGPT é capaz de identificar qual é o prato e ainda fornecer a receita dele. Para isso, envie a foto junto com comandos do tipo “Do que é feito esse prato?” ou “Qual é a receita desse prato?”.

ChatGPT é capaz de identificar um prato e fornecer sua receita Foto: Alice Labate/Estadão

Interpretar e resolver questões escritas

continua após a publicidade

Na escola, é comum que os professores coloquem exercícios na lousa para que os alunos resolvam. Com uma simples foto, o ChatGPT consegue resolver uma questão passo a passo para ajudar o estudante.

É só enviar a foto da lousa, da apostila ou do caderno, e pedir para o chatbot resolver o exercício.

No caso abaixo, o chatbot realizou a equação de maneira correta, mas interpretou errado o exercício da lousa. Além de ter ignorado os parênteses na conta, a IA não entendeu que o ponto em 3.6x representa o sinal de multiplicação e não uma casa decimal.

continua após a publicidade
Ao tirar a foto de uma questão escrita na lousa, na apostila ou no caderno, o chatbot é capaz de solucionar mostrando o passo a passo Foto: Alice Labate/Estadão

Explicar memes

Aqueles que têm dificuldade em entender novos memes também conseguem se aproveitar das habilidades do ChatGPT, porque ele é capaz de explicar o humor e o contexto por trás de qualquer piada.

É simples: basta enviar a imagem do meme, pedir para o chatbot explicar e pronto!

Nem sempre os memes são fáceis de entender, mas o ChatGPT é capaz de interpretar e explicar ao usuário seu humor e contexto Foto: Alice Labate/Estadão

Identificar cores, formatos e objetos

Outra habilidade do ChatGPT é identificar cores, formas e até objetos específicos presentes em uma imagem. O chatbot é capaz de dizer quais são as cores de maior destaque nas fotos e os subtons que também estão presentes, além de padrões e mosaicos.

Para que a plataforma identifique algum aspecto de imagem, é só fazer uma pergunta como “Quais as cores em maior destaque na foto?” e aguardar uma resposta.

A plataforma consegue analisar uma imagem e identificar elementos como cores, formas e objetos Foto: Alice Labate/Estadão

Responder perguntas sobre a imagem

Além de conseguir identificar elementos presentes em uma imagem, o ChatGPT também consegue responder perguntas específicas sobre ela, como, por exemplo, quantas cabines há na roda gigante da foto. Aqui ele quase acertou, pois não há 20 cabines visíveis.

O sistema também consegue analisar imagens e responder perguntas sobre elas Foto: Alice Labate/Estadão

Identificar personagens de desenhos animados

O ChatGPT também é capaz de identificar personagens de desenhos ou filmes animados. É só enviar uma imagem do personagem que deseja e fazer perguntas do tipo “De que desenho é este personagem?” ou “Qual é o nome deste personagem?”.

Apesar de poder identificar personagens animados, o ChatGPT não consegue identificar personagens interpretados por atores reais e nem qualquer outra pessoa da vida real.

ChatGPT consegue analisar e identificar personagens de filmes ou desenhos animados Foto: Alice Labate/Estadão

Criar e interpretar mapas

Com a atualização, o ChatGPT consegue não apenas criar mapas, como também interpretá-los. O chatbot, agora, está integrado com a IA de geração de imagens DALL-E 3, o que dá a ele a habilidade de criar imagens.

O usuário pode enviar comandos do tipo “crie um mapa para meu jogo RPG com as seguintes descrições” e especificar o que procura. Além disso, é possível enviar a imagem de um mapa e pedir para o chatbot dizer “o que ele quer dizer”, ou, simplesmente, pedir para ele o interpretar.

ChatGPT agora é capaz de interpretar mapas Foto: Alice Labate/Estadão

*Alice Labate é estagiária sob supervisão do editor Bruno Romani

Em março, a OpenAI, empresa criadora do sistema de inteligência artificial (IA) ChatGPT, lançou o mais recente modelo da IA que alimenta o programa: o GPT-4 - o modelo está disponível apenas na versão paga do chatbot com a assinatura ChatGPT Plus.

Em setembro, porém, a IA ganhou uma nova capacidade: ‘enxergar fotos’. Ou seja, o usuário consegue enviar uma imagem e pedir para que a IA a interprete e responda perguntas sobre ela, por exemplo. A capacidade de lidar com diferentes tipos de dados se chama multimodalidade, e é um tipo de recurso visto também no Bard, do Google, e no Bing, da Microsoft.

Abaixo, veja como o chatbot se sai em nove tarefas diferentes envolvendo reconhecimento de imagem.

Identificar idiomas e traduzir textos em outras línguas

Se o usuário estiver com um livro em mãos ou qualquer outro texto escrito em um idioma que não entende, basta enviar uma imagem dele para o ChatGPT (em sua versão GPT-4), que a tradução quase instantânea.

Alguns exemplos de comando para esse tipo de situação seriam: “Traduza este texto”, “Qual é o idioma?” ou “O que está escrito?”.

Nova ferramenta do ChatGPT permite que o chatbot analise textos escritos e os traduza Foto: Alice Labate/Estadão

Explicar e analisar dados

O ChatGPT, em sua versão mais recente, também é capaz de computar e interpretar os dados de gráficos e tabelas. Para que o sistema analise os dados desejados, é só enviar a imagem do gráfico ou tabela e pedir para o chatbot “Explicar os dados”, por exemplo.

ChatGPT é capaz de analisar dados conforme o comando Foto: Alice Labate/Estadão

Identificar um prato e dar a receita

Já comeu um prato que gostou muito e quis saber a receita? Agora essa tarefa ficou muito mais fácil.

Com uma simples foto da comida, o ChatGPT é capaz de identificar qual é o prato e ainda fornecer a receita dele. Para isso, envie a foto junto com comandos do tipo “Do que é feito esse prato?” ou “Qual é a receita desse prato?”.

ChatGPT é capaz de identificar um prato e fornecer sua receita Foto: Alice Labate/Estadão

Interpretar e resolver questões escritas

Na escola, é comum que os professores coloquem exercícios na lousa para que os alunos resolvam. Com uma simples foto, o ChatGPT consegue resolver uma questão passo a passo para ajudar o estudante.

É só enviar a foto da lousa, da apostila ou do caderno, e pedir para o chatbot resolver o exercício.

No caso abaixo, o chatbot realizou a equação de maneira correta, mas interpretou errado o exercício da lousa. Além de ter ignorado os parênteses na conta, a IA não entendeu que o ponto em 3.6x representa o sinal de multiplicação e não uma casa decimal.

Ao tirar a foto de uma questão escrita na lousa, na apostila ou no caderno, o chatbot é capaz de solucionar mostrando o passo a passo Foto: Alice Labate/Estadão

Explicar memes

Aqueles que têm dificuldade em entender novos memes também conseguem se aproveitar das habilidades do ChatGPT, porque ele é capaz de explicar o humor e o contexto por trás de qualquer piada.

É simples: basta enviar a imagem do meme, pedir para o chatbot explicar e pronto!

Nem sempre os memes são fáceis de entender, mas o ChatGPT é capaz de interpretar e explicar ao usuário seu humor e contexto Foto: Alice Labate/Estadão

Identificar cores, formatos e objetos

Outra habilidade do ChatGPT é identificar cores, formas e até objetos específicos presentes em uma imagem. O chatbot é capaz de dizer quais são as cores de maior destaque nas fotos e os subtons que também estão presentes, além de padrões e mosaicos.

Para que a plataforma identifique algum aspecto de imagem, é só fazer uma pergunta como “Quais as cores em maior destaque na foto?” e aguardar uma resposta.

A plataforma consegue analisar uma imagem e identificar elementos como cores, formas e objetos Foto: Alice Labate/Estadão

Responder perguntas sobre a imagem

Além de conseguir identificar elementos presentes em uma imagem, o ChatGPT também consegue responder perguntas específicas sobre ela, como, por exemplo, quantas cabines há na roda gigante da foto. Aqui ele quase acertou, pois não há 20 cabines visíveis.

O sistema também consegue analisar imagens e responder perguntas sobre elas Foto: Alice Labate/Estadão

Identificar personagens de desenhos animados

O ChatGPT também é capaz de identificar personagens de desenhos ou filmes animados. É só enviar uma imagem do personagem que deseja e fazer perguntas do tipo “De que desenho é este personagem?” ou “Qual é o nome deste personagem?”.

Apesar de poder identificar personagens animados, o ChatGPT não consegue identificar personagens interpretados por atores reais e nem qualquer outra pessoa da vida real.

ChatGPT consegue analisar e identificar personagens de filmes ou desenhos animados Foto: Alice Labate/Estadão

Criar e interpretar mapas

Com a atualização, o ChatGPT consegue não apenas criar mapas, como também interpretá-los. O chatbot, agora, está integrado com a IA de geração de imagens DALL-E 3, o que dá a ele a habilidade de criar imagens.

O usuário pode enviar comandos do tipo “crie um mapa para meu jogo RPG com as seguintes descrições” e especificar o que procura. Além disso, é possível enviar a imagem de um mapa e pedir para o chatbot dizer “o que ele quer dizer”, ou, simplesmente, pedir para ele o interpretar.

ChatGPT agora é capaz de interpretar mapas Foto: Alice Labate/Estadão

*Alice Labate é estagiária sob supervisão do editor Bruno Romani

Em março, a OpenAI, empresa criadora do sistema de inteligência artificial (IA) ChatGPT, lançou o mais recente modelo da IA que alimenta o programa: o GPT-4 - o modelo está disponível apenas na versão paga do chatbot com a assinatura ChatGPT Plus.

Em setembro, porém, a IA ganhou uma nova capacidade: ‘enxergar fotos’. Ou seja, o usuário consegue enviar uma imagem e pedir para que a IA a interprete e responda perguntas sobre ela, por exemplo. A capacidade de lidar com diferentes tipos de dados se chama multimodalidade, e é um tipo de recurso visto também no Bard, do Google, e no Bing, da Microsoft.

Abaixo, veja como o chatbot se sai em nove tarefas diferentes envolvendo reconhecimento de imagem.

Identificar idiomas e traduzir textos em outras línguas

Se o usuário estiver com um livro em mãos ou qualquer outro texto escrito em um idioma que não entende, basta enviar uma imagem dele para o ChatGPT (em sua versão GPT-4), que a tradução quase instantânea.

Alguns exemplos de comando para esse tipo de situação seriam: “Traduza este texto”, “Qual é o idioma?” ou “O que está escrito?”.

Nova ferramenta do ChatGPT permite que o chatbot analise textos escritos e os traduza Foto: Alice Labate/Estadão

Explicar e analisar dados

O ChatGPT, em sua versão mais recente, também é capaz de computar e interpretar os dados de gráficos e tabelas. Para que o sistema analise os dados desejados, é só enviar a imagem do gráfico ou tabela e pedir para o chatbot “Explicar os dados”, por exemplo.

ChatGPT é capaz de analisar dados conforme o comando Foto: Alice Labate/Estadão

Identificar um prato e dar a receita

Já comeu um prato que gostou muito e quis saber a receita? Agora essa tarefa ficou muito mais fácil.

Com uma simples foto da comida, o ChatGPT é capaz de identificar qual é o prato e ainda fornecer a receita dele. Para isso, envie a foto junto com comandos do tipo “Do que é feito esse prato?” ou “Qual é a receita desse prato?”.

ChatGPT é capaz de identificar um prato e fornecer sua receita Foto: Alice Labate/Estadão

Interpretar e resolver questões escritas

Na escola, é comum que os professores coloquem exercícios na lousa para que os alunos resolvam. Com uma simples foto, o ChatGPT consegue resolver uma questão passo a passo para ajudar o estudante.

É só enviar a foto da lousa, da apostila ou do caderno, e pedir para o chatbot resolver o exercício.

No caso abaixo, o chatbot realizou a equação de maneira correta, mas interpretou errado o exercício da lousa. Além de ter ignorado os parênteses na conta, a IA não entendeu que o ponto em 3.6x representa o sinal de multiplicação e não uma casa decimal.

Ao tirar a foto de uma questão escrita na lousa, na apostila ou no caderno, o chatbot é capaz de solucionar mostrando o passo a passo Foto: Alice Labate/Estadão

Explicar memes

Aqueles que têm dificuldade em entender novos memes também conseguem se aproveitar das habilidades do ChatGPT, porque ele é capaz de explicar o humor e o contexto por trás de qualquer piada.

É simples: basta enviar a imagem do meme, pedir para o chatbot explicar e pronto!

Nem sempre os memes são fáceis de entender, mas o ChatGPT é capaz de interpretar e explicar ao usuário seu humor e contexto Foto: Alice Labate/Estadão

Identificar cores, formatos e objetos

Outra habilidade do ChatGPT é identificar cores, formas e até objetos específicos presentes em uma imagem. O chatbot é capaz de dizer quais são as cores de maior destaque nas fotos e os subtons que também estão presentes, além de padrões e mosaicos.

Para que a plataforma identifique algum aspecto de imagem, é só fazer uma pergunta como “Quais as cores em maior destaque na foto?” e aguardar uma resposta.

A plataforma consegue analisar uma imagem e identificar elementos como cores, formas e objetos Foto: Alice Labate/Estadão

Responder perguntas sobre a imagem

Além de conseguir identificar elementos presentes em uma imagem, o ChatGPT também consegue responder perguntas específicas sobre ela, como, por exemplo, quantas cabines há na roda gigante da foto. Aqui ele quase acertou, pois não há 20 cabines visíveis.

O sistema também consegue analisar imagens e responder perguntas sobre elas Foto: Alice Labate/Estadão

Identificar personagens de desenhos animados

O ChatGPT também é capaz de identificar personagens de desenhos ou filmes animados. É só enviar uma imagem do personagem que deseja e fazer perguntas do tipo “De que desenho é este personagem?” ou “Qual é o nome deste personagem?”.

Apesar de poder identificar personagens animados, o ChatGPT não consegue identificar personagens interpretados por atores reais e nem qualquer outra pessoa da vida real.

ChatGPT consegue analisar e identificar personagens de filmes ou desenhos animados Foto: Alice Labate/Estadão

Criar e interpretar mapas

Com a atualização, o ChatGPT consegue não apenas criar mapas, como também interpretá-los. O chatbot, agora, está integrado com a IA de geração de imagens DALL-E 3, o que dá a ele a habilidade de criar imagens.

O usuário pode enviar comandos do tipo “crie um mapa para meu jogo RPG com as seguintes descrições” e especificar o que procura. Além disso, é possível enviar a imagem de um mapa e pedir para o chatbot dizer “o que ele quer dizer”, ou, simplesmente, pedir para ele o interpretar.

ChatGPT agora é capaz de interpretar mapas Foto: Alice Labate/Estadão

*Alice Labate é estagiária sob supervisão do editor Bruno Romani

Tudo Sobre

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.