Em março, a OpenAI, empresa criadora do sistema de inteligência artificial (IA) ChatGPT, lançou o mais recente modelo da IA que alimenta o programa: o GPT-4 - o modelo está disponível apenas na versão paga do chatbot com a assinatura ChatGPT Plus.
Em setembro, porém, a IA ganhou uma nova capacidade: ‘enxergar fotos’. Ou seja, o usuário consegue enviar uma imagem e pedir para que a IA a interprete e responda perguntas sobre ela, por exemplo. A capacidade de lidar com diferentes tipos de dados se chama multimodalidade, e é um tipo de recurso visto também no Bard, do Google, e no Bing, da Microsoft.
Abaixo, veja como o chatbot se sai em nove tarefas diferentes envolvendo reconhecimento de imagem.
Identificar idiomas e traduzir textos em outras línguas
Se o usuário estiver com um livro em mãos ou qualquer outro texto escrito em um idioma que não entende, basta enviar uma imagem dele para o ChatGPT (em sua versão GPT-4), que a tradução quase instantânea.
Alguns exemplos de comando para esse tipo de situação seriam: “Traduza este texto”, “Qual é o idioma?” ou “O que está escrito?”.
Explicar e analisar dados
O ChatGPT, em sua versão mais recente, também é capaz de computar e interpretar os dados de gráficos e tabelas. Para que o sistema analise os dados desejados, é só enviar a imagem do gráfico ou tabela e pedir para o chatbot “Explicar os dados”, por exemplo.
Identificar um prato e dar a receita
Já comeu um prato que gostou muito e quis saber a receita? Agora essa tarefa ficou muito mais fácil.
Com uma simples foto da comida, o ChatGPT é capaz de identificar qual é o prato e ainda fornecer a receita dele. Para isso, envie a foto junto com comandos do tipo “Do que é feito esse prato?” ou “Qual é a receita desse prato?”.
Interpretar e resolver questões escritas
Na escola, é comum que os professores coloquem exercícios na lousa para que os alunos resolvam. Com uma simples foto, o ChatGPT consegue resolver uma questão passo a passo para ajudar o estudante.
É só enviar a foto da lousa, da apostila ou do caderno, e pedir para o chatbot resolver o exercício.
No caso abaixo, o chatbot realizou a equação de maneira correta, mas interpretou errado o exercício da lousa. Além de ter ignorado os parênteses na conta, a IA não entendeu que o ponto em 3.6x representa o sinal de multiplicação e não uma casa decimal.
Explicar memes
Aqueles que têm dificuldade em entender novos memes também conseguem se aproveitar das habilidades do ChatGPT, porque ele é capaz de explicar o humor e o contexto por trás de qualquer piada.
É simples: basta enviar a imagem do meme, pedir para o chatbot explicar e pronto!
Identificar cores, formatos e objetos
Outra habilidade do ChatGPT é identificar cores, formas e até objetos específicos presentes em uma imagem. O chatbot é capaz de dizer quais são as cores de maior destaque nas fotos e os subtons que também estão presentes, além de padrões e mosaicos.
Para que a plataforma identifique algum aspecto de imagem, é só fazer uma pergunta como “Quais as cores em maior destaque na foto?” e aguardar uma resposta.
Responder perguntas sobre a imagem
Além de conseguir identificar elementos presentes em uma imagem, o ChatGPT também consegue responder perguntas específicas sobre ela, como, por exemplo, quantas cabines há na roda gigante da foto. Aqui ele quase acertou, pois não há 20 cabines visíveis.
Identificar personagens de desenhos animados
O ChatGPT também é capaz de identificar personagens de desenhos ou filmes animados. É só enviar uma imagem do personagem que deseja e fazer perguntas do tipo “De que desenho é este personagem?” ou “Qual é o nome deste personagem?”.
Apesar de poder identificar personagens animados, o ChatGPT não consegue identificar personagens interpretados por atores reais e nem qualquer outra pessoa da vida real.
Criar e interpretar mapas
Com a atualização, o ChatGPT consegue não apenas criar mapas, como também interpretá-los. O chatbot, agora, está integrado com a IA de geração de imagens DALL-E 3, o que dá a ele a habilidade de criar imagens.
O usuário pode enviar comandos do tipo “crie um mapa para meu jogo RPG com as seguintes descrições” e especificar o que procura. Além disso, é possível enviar a imagem de um mapa e pedir para o chatbot dizer “o que ele quer dizer”, ou, simplesmente, pedir para ele o interpretar.
*Alice Labate é estagiária sob supervisão do editor Bruno Romani
Os comentários são exclusivos para assinantes do Estadão.