Em março, a OpenAI, empresa criadora do sistema de inteligência artificial (IA) ChatGPT, lançou o mais recente modelo da IA que alimenta o programa: o GPT-4 - o modelo está disponível apenas na versão paga do chatbot com a assinatura ChatGPT Plus.
Em setembro, porém, a IA ganhou uma nova capacidade: ‘enxergar fotos’. Ou seja, o usuário consegue enviar uma imagem e pedir para que a IA a interprete e responda perguntas sobre ela, por exemplo. A capacidade de lidar com diferentes tipos de dados se chama multimodalidade, e é um tipo de recurso visto também no Bard, do Google, e no Bing, da Microsoft.
Abaixo, veja como o chatbot se sai em nove tarefas diferentes envolvendo reconhecimento de imagem.
Identificar idiomas e traduzir textos em outras línguas
Se o usuário estiver com um livro em mãos ou qualquer outro texto escrito em um idioma que não entende, basta enviar uma imagem dele para o ChatGPT (em sua versão GPT-4), que a tradução quase instantânea.
Alguns exemplos de comando para esse tipo de situação seriam: “Traduza este texto”, “Qual é o idioma?” ou “O que está escrito?”.
![](https://www.estadao.com.br/resizer/v2/KPNY7NM5ZNCLFH77FFUYJWIAXU.jpeg?quality=80&auth=68d212ff0cd2a5777b183fc073e16d7d1d10880ae0dbd8c5ac3da9f7f8b32343&width=380 768w, https://www.estadao.com.br/resizer/v2/KPNY7NM5ZNCLFH77FFUYJWIAXU.jpeg?quality=80&auth=68d212ff0cd2a5777b183fc073e16d7d1d10880ae0dbd8c5ac3da9f7f8b32343&width=768 1024w, https://www.estadao.com.br/resizer/v2/KPNY7NM5ZNCLFH77FFUYJWIAXU.jpeg?quality=80&auth=68d212ff0cd2a5777b183fc073e16d7d1d10880ae0dbd8c5ac3da9f7f8b32343&width=1200 1322w)
Explicar e analisar dados
O ChatGPT, em sua versão mais recente, também é capaz de computar e interpretar os dados de gráficos e tabelas. Para que o sistema analise os dados desejados, é só enviar a imagem do gráfico ou tabela e pedir para o chatbot “Explicar os dados”, por exemplo.
![](https://www.estadao.com.br/resizer/v2/BS5GASDIWZAPLFKU7462DQRMGE.jpeg?quality=80&auth=0490f17ae0f86c4acf8fb62068d509c4c8ad7528504cd7c39505068173822abe&width=380 768w, https://www.estadao.com.br/resizer/v2/BS5GASDIWZAPLFKU7462DQRMGE.jpeg?quality=80&auth=0490f17ae0f86c4acf8fb62068d509c4c8ad7528504cd7c39505068173822abe&width=768 1024w, https://www.estadao.com.br/resizer/v2/BS5GASDIWZAPLFKU7462DQRMGE.jpeg?quality=80&auth=0490f17ae0f86c4acf8fb62068d509c4c8ad7528504cd7c39505068173822abe&width=1200 1322w)
Identificar um prato e dar a receita
Já comeu um prato que gostou muito e quis saber a receita? Agora essa tarefa ficou muito mais fácil.
Com uma simples foto da comida, o ChatGPT é capaz de identificar qual é o prato e ainda fornecer a receita dele. Para isso, envie a foto junto com comandos do tipo “Do que é feito esse prato?” ou “Qual é a receita desse prato?”.
![](https://www.estadao.com.br/resizer/v2/73XKEJFOH5DHVNAHWDXYPKREZQ.jpeg?quality=80&auth=453ec733ed279aef4f569da0ba113b13ca42fc2cd207ea2054db9e61de3ebd3e&width=380 768w, https://www.estadao.com.br/resizer/v2/73XKEJFOH5DHVNAHWDXYPKREZQ.jpeg?quality=80&auth=453ec733ed279aef4f569da0ba113b13ca42fc2cd207ea2054db9e61de3ebd3e&width=768 1024w, https://www.estadao.com.br/resizer/v2/73XKEJFOH5DHVNAHWDXYPKREZQ.jpeg?quality=80&auth=453ec733ed279aef4f569da0ba113b13ca42fc2cd207ea2054db9e61de3ebd3e&width=1200 1322w)
Interpretar e resolver questões escritas
Na escola, é comum que os professores coloquem exercícios na lousa para que os alunos resolvam. Com uma simples foto, o ChatGPT consegue resolver uma questão passo a passo para ajudar o estudante.
É só enviar a foto da lousa, da apostila ou do caderno, e pedir para o chatbot resolver o exercício.
No caso abaixo, o chatbot realizou a equação de maneira correta, mas interpretou errado o exercício da lousa. Além de ter ignorado os parênteses na conta, a IA não entendeu que o ponto em 3.6x representa o sinal de multiplicação e não uma casa decimal.
![](https://www.estadao.com.br/resizer/v2/XW4XTLORP5EB7NWC2I7SHPOBTA.jpeg?quality=80&auth=1e2a150cd8642397abd4ae226b896ab89fe9d191e61c929735ba449f016df60e&width=380 768w, https://www.estadao.com.br/resizer/v2/XW4XTLORP5EB7NWC2I7SHPOBTA.jpeg?quality=80&auth=1e2a150cd8642397abd4ae226b896ab89fe9d191e61c929735ba449f016df60e&width=768 1024w, https://www.estadao.com.br/resizer/v2/XW4XTLORP5EB7NWC2I7SHPOBTA.jpeg?quality=80&auth=1e2a150cd8642397abd4ae226b896ab89fe9d191e61c929735ba449f016df60e&width=1200 1322w)
Explicar memes
Aqueles que têm dificuldade em entender novos memes também conseguem se aproveitar das habilidades do ChatGPT, porque ele é capaz de explicar o humor e o contexto por trás de qualquer piada.
É simples: basta enviar a imagem do meme, pedir para o chatbot explicar e pronto!
![](https://www.estadao.com.br/resizer/v2/XRETT2XQW5GN3JRQAV4C3HFYKM.jpeg?quality=80&auth=1275ebf59d414d3b3966475005996dd65672172990498a8cd9737e70c34c3972&width=380 768w, https://www.estadao.com.br/resizer/v2/XRETT2XQW5GN3JRQAV4C3HFYKM.jpeg?quality=80&auth=1275ebf59d414d3b3966475005996dd65672172990498a8cd9737e70c34c3972&width=768 1024w, https://www.estadao.com.br/resizer/v2/XRETT2XQW5GN3JRQAV4C3HFYKM.jpeg?quality=80&auth=1275ebf59d414d3b3966475005996dd65672172990498a8cd9737e70c34c3972&width=1200 1322w)
Identificar cores, formatos e objetos
Outra habilidade do ChatGPT é identificar cores, formas e até objetos específicos presentes em uma imagem. O chatbot é capaz de dizer quais são as cores de maior destaque nas fotos e os subtons que também estão presentes, além de padrões e mosaicos.
Para que a plataforma identifique algum aspecto de imagem, é só fazer uma pergunta como “Quais as cores em maior destaque na foto?” e aguardar uma resposta.
![](https://www.estadao.com.br/resizer/v2/AZRBX5FUCBEU5EJKN4Q5BTSLU4.jpeg?quality=80&auth=8690c00029ad608bbd0dd22922a90c357baa220d65e6e0b521d844091b41d7fc&width=380 768w, https://www.estadao.com.br/resizer/v2/AZRBX5FUCBEU5EJKN4Q5BTSLU4.jpeg?quality=80&auth=8690c00029ad608bbd0dd22922a90c357baa220d65e6e0b521d844091b41d7fc&width=768 1024w, https://www.estadao.com.br/resizer/v2/AZRBX5FUCBEU5EJKN4Q5BTSLU4.jpeg?quality=80&auth=8690c00029ad608bbd0dd22922a90c357baa220d65e6e0b521d844091b41d7fc&width=1200 1322w)
Responder perguntas sobre a imagem
Além de conseguir identificar elementos presentes em uma imagem, o ChatGPT também consegue responder perguntas específicas sobre ela, como, por exemplo, quantas cabines há na roda gigante da foto. Aqui ele quase acertou, pois não há 20 cabines visíveis.
![](https://www.estadao.com.br/resizer/v2/Z3B4H6QOBJD2NBGXB6LRYUHOLA.jpeg?quality=80&auth=60401b8bdb08d1f7b21c9008d8a15359157d6273154fe226e3a75c334b8039d6&width=380 768w, https://www.estadao.com.br/resizer/v2/Z3B4H6QOBJD2NBGXB6LRYUHOLA.jpeg?quality=80&auth=60401b8bdb08d1f7b21c9008d8a15359157d6273154fe226e3a75c334b8039d6&width=768 1024w, https://www.estadao.com.br/resizer/v2/Z3B4H6QOBJD2NBGXB6LRYUHOLA.jpeg?quality=80&auth=60401b8bdb08d1f7b21c9008d8a15359157d6273154fe226e3a75c334b8039d6&width=1200 1322w)
Identificar personagens de desenhos animados
O ChatGPT também é capaz de identificar personagens de desenhos ou filmes animados. É só enviar uma imagem do personagem que deseja e fazer perguntas do tipo “De que desenho é este personagem?” ou “Qual é o nome deste personagem?”.
Apesar de poder identificar personagens animados, o ChatGPT não consegue identificar personagens interpretados por atores reais e nem qualquer outra pessoa da vida real.
![](https://www.estadao.com.br/resizer/v2/AQWQBMQ4TRFRXG223SRV3AVCMI.jpeg?quality=80&auth=0bc76fb98fd0ec131e613faa5bc95ad58c2057d4c75e6f30b51c9a410a4d4c62&width=380 768w, https://www.estadao.com.br/resizer/v2/AQWQBMQ4TRFRXG223SRV3AVCMI.jpeg?quality=80&auth=0bc76fb98fd0ec131e613faa5bc95ad58c2057d4c75e6f30b51c9a410a4d4c62&width=768 1024w, https://www.estadao.com.br/resizer/v2/AQWQBMQ4TRFRXG223SRV3AVCMI.jpeg?quality=80&auth=0bc76fb98fd0ec131e613faa5bc95ad58c2057d4c75e6f30b51c9a410a4d4c62&width=1200 1322w)
Criar e interpretar mapas
Com a atualização, o ChatGPT consegue não apenas criar mapas, como também interpretá-los. O chatbot, agora, está integrado com a IA de geração de imagens DALL-E 3, o que dá a ele a habilidade de criar imagens.
O usuário pode enviar comandos do tipo “crie um mapa para meu jogo RPG com as seguintes descrições” e especificar o que procura. Além disso, é possível enviar a imagem de um mapa e pedir para o chatbot dizer “o que ele quer dizer”, ou, simplesmente, pedir para ele o interpretar.
![](https://www.estadao.com.br/resizer/v2/SVTGR7J7DZE6TJJY3EA4DFT6KA.jpeg?quality=80&auth=356d10591c606555aba6b450c5453b78f1c808ef21f5cc0e76bf88a9e8ed4afa&width=380 768w, https://www.estadao.com.br/resizer/v2/SVTGR7J7DZE6TJJY3EA4DFT6KA.jpeg?quality=80&auth=356d10591c606555aba6b450c5453b78f1c808ef21f5cc0e76bf88a9e8ed4afa&width=768 1024w, https://www.estadao.com.br/resizer/v2/SVTGR7J7DZE6TJJY3EA4DFT6KA.jpeg?quality=80&auth=356d10591c606555aba6b450c5453b78f1c808ef21f5cc0e76bf88a9e8ed4afa&width=1200 1322w)
*Alice Labate é estagiária sob supervisão do editor Bruno Romani