GPT-4, que agora ‘enxerga’ imagens, acerta 90% das questões do Enem 2023; veja

Pesquisa mostra que modelo de inteligência artificial vai bem principalmente na versão legendada da prova

PUBLICIDADE

Foto do author Bruno Romani
Atualização:

Ao longo do ano, o ChatGPT demonstrou que consegue ser “aprovado” em diversos exames de admissão, como a primeira fase da OAB. Agora, um novo experimento provou que o GPT-4, cérebro que abastece o chatbot inteligente da OpenAI, também tem um alto aproveitamento no Exame Nacional do Ensino Médio (Enem). O modelo de inteligência artificial (IA) acertou 90% das questões da edição 2023 da prova, em uma pesquisa da Maritaca AI, startup brasileira que desenvolve sistemas de IA adaptados para português - o Estadão teve acesso exclusivo ao material.

PUBLICIDADE

Essa não é a primeira vez que o GPT é testado em relação ao Enem, mas esse é a primeiro pesquisa realizada após o modelo de IA da OpenAI ganhar recursos de multimodalidade - desde setembro deste ano, ele não reconhece apenas texto, mas também imagens. Pesquisas realizadas anteriormente, excluíam questões que envolvessem análise de imagens, o que não permitia um panorama completo do desempenho da IA.

No estudo, conduzido pelos pesquisadores Ramon Pires, Thales Sales, Hugo Abonizio e Rodrigo Nogueira, o GPT-4 respondeu às 179 questões válidas deste ano (uma questão de matemática foi anulada pelo Instituto Nacional de Estudos e Pesquisas Educacionais, organizador do Enem). A redação não foi testada pela startup, algo que seus pesquisadores miram para o futuro.

GPT-4 acerta 90% das questões do Enem de 2023 Foto: Florence Lo/Reuters

“Com a nova versão, o GPT-4 passou a enxergar imagens, tabelas, símbolos matemáticos e elementos químicos. Tudo isso não era possível antes”, explica Pires. Para medir a eficiência do modelo, os pesquisadores fizeram três medições do aproveitamento do GPT-4: prova excluindo todas as imagens, prova com imagens e prova com legendas descritivas no lugar das imagens. Neste último caso, foi aplicada o caderno 9 laranja, utilizada por pessoas com deficiência visual.

O melhor resultado da IA foi na versão com legendas da prova, com aproveitamento de 89,9% das questões. Na versão com imagens, ela teve 86% de aproveitamento e, enquanto na versão sem imagens esse número foi de 80,5%. “Esse resultado mostra que ainda há espaço para o reconhecimento de imagens do GPT melhorar”, conta Pires.

Publicidade

Nogueira levanta ainda outra hipótese: “Pode ser que a descrição de uma imagem tenha entregado alguma informação importante para que a máquina respondesse as perguntas”.

No geral, a máquina tem melhor desempenho nas questões de ciências humanas: com imagens ou com legendas, o aproveitamento foi de 100% - sem imagens, a eficiência foi de 95,6%. A área em que o GPT-4 performa pior é matemática. Ao ler legendas, a performance é de 75%, enquanto por detecção de imagens o número é de 65,9%.

“Grandes modelos de linguagem (LLMs) ainda apresentam dificuldades em áreas de raciocínio e lógica, temas que aparecem nas questões de matemática”, afirma Nogueira. De fato, cientistas e empresas lutam há alguns anos contra as limitações desses sistemas em matemática. Por outro lado, o alto desempenho em ciências humanas também era esperado já que LLMs são focados em linguagem.

Ainda assim, Nogueira diz que a performance do GPT-4 traz informações importantes para o desenvolvimento de IA - a Maritaca adapta e potencializa grandes modelos para português. “Provas de admissão em universidades são usados para testar a capacidade dos modelos. Com esse desempenho, teremos que procurar provas mais específicas e difíceis. Isso significa que o GPT já atingiu um ótimo desempenho e precisará de testes ainda mais difíceis para continuar avançando”, diz Nogueira.

“Provas de admissão em universidades são usados para testar a capacidade dos modelos. Com esse desempenho, teremos que procurar provas mais específicas e difíceis. O GPT já atingiu um ótimo desempenho e precisará de testes ainda mais difíceis para continuar avançando

Rodrigo Nogueira, fundador da Maritaca AI

Desempenho do GPT-4 Turbo é pior

Além do GPT-4 capaz de reconhecer imagens, o teste da Maritaca também avaliou a performance de versões do GPT que não reconhecem imagens. São elas GPT-3.5 Turbo (usado na versão gratuita do ChatGPT), GPT-4 (versão 0613) e GPT-4 Turbo (versão 1106, mais recente e usada na versão paga do ChatGPT).

Publicidade

Novamente, todos tiveram performance superior lendo legendas de imagens do que ao fazer a prova sem nenhuma imagem. Um resultado, porém, chamou a atenção: o GPT-4 (0613) teve performance superior ao seu sucessor GPT-4 Turbo nos dois testes. Na prova com legendas, os resultados foram de 90,5% contra 86,03%.

Isso reprisa um temor de cientistas e usuários, que vinham reclamando no mês de outubro da qualidade das respostas do GPT-4 Turbo. “O resultado reforça essas reclamações. Minha hipótese é que o Turbo poder ser um modelo menor. Ele pode ‘conversar bem’, mas na hora de lembrar fatos ou resolver tarefas mais difíceis, ele vai pior que o seu irmão maior”, conclui Nogueira.

Comentários

Os comentários são exclusivos para assinantes do Estadão.