Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.
De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.
Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.
Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.
No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.
Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.
Leia também
A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.
Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.
Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.