Foto do(a) coluna

Professor Livre Docente de inteligência artificial na Faculdade de Saúde Pública da USP

Opinião|Como avaliar a qualidade de um algoritmo de IA? Não é uma tarefa fácil


Tecnologia representa uma vasta coleção de informações e por isso é importante saber avaliar esses dados

Por Alexandre Chiavegatto Filho

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

continua após a publicidade
Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados
Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

continua após a publicidade

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

continua após a publicidade

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Loading
Opinião por Alexandre Chiavegatto Filho

Professor Livre Docente de inteligência artificial na Faculdade de Saúde Pública da USP