Professor Livre Docente de inteligência artificial na Faculdade de Saúde Pública da USP

Opinião|Como avaliar a qualidade de um algoritmo de IA? Não é uma tarefa fácil


Tecnologia representa uma vasta coleção de informações e por isso é importante saber avaliar esses dados

Por Alexandre Chiavegatto Filho

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

continua após a publicidade
Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

continua após a publicidade

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

continua após a publicidade

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Um dos desafios iniciais que enfrentamos como professores de inteligência artificial (IA) é esclarecer para os alunos que a área não representa uma única entidade, mas sim uma vasta coleção de algoritmos distintos.

De acordo com a definição mais amplamente aceita, IA é a capacidade de máquinas tomarem decisões que identificamos como inteligentes. Essas decisões são baseadas em regras que os algoritmos aprendem frequentemente a partir de dados e informações.

Isso significa que até as regras de decisões relativamente simples, principalmente nas áreas em que nós humanos temos muita dificuldade como é o caso da identificação de padrões em dados de planilha, podem também ser tecnicamente classificadas como IA, mesmo se a quantidade de erros for muito grande.

Algoritmos de IA devem ser avaliados por conta da quantidade de informações em sua base de dados Foto: Dado Ruvic/Reuters

Isso torna importante a aplicação de métricas precisas para avaliar a qualidade das decisões tomadas pelos algoritmos. Porém não se trata de uma tarefa fácil – e está se tornando cada vez mais complexa.

No caso de algoritmos de linguagem de grande porte (LLMs), uma estratégia até recentemente comum era avaliar a sua performance por meio de testes frequentemente aplicados em humanos, como é o caso do ENEM. O problema dessa estratégia é que esses testes muitas vezes estão disponíveis online, o que aumenta o risco de os algoritmos simplesmente decorarem a resposta correta. Nesse caso, gabaritar o teste pode ser apenas uma consequência de o algoritmo já saber a resposta, em vez de ter compreendido de fato a pergunta, um problema que em IA é conhecido como “sobreajuste”.

Para evitar essa contaminação dos dados, duas estratégias estão sendo cada vez mais utilizadas. A primeira é o estabelecimento de uma competição direta entre os algoritmos, em que as pessoas solicitam uma informação e depois selecionam qual dos algoritmos chegou na melhor resposta. A competição mais popular desse tipo, a LMSYS Chatbot Arena, já teve mais de 900 mil embates diretos entre os algoritmos.

A outra opção é elaborar um conjunto de testes confidenciais e controlados para que não haja vazamento para a internet. Na semana passada, um grupo de pesquisadores da Scale AI publicou um artigo que analisou a performance dos algoritmos em um recém-criado teste de raciocínio matemático e encontrou uma queda de performance de até 13% em relação aos testes mais antigos disponíveis online, indicando que existia mesmo um sobreajuste dos algoritmos.

Avaliar a qualidade de um algoritmo de inteligência artificial envolve ir além da sua performance em testes padronizados e bem conhecidos. É necessário observar como se comportam em situações variadas e reais, e como se adaptam às diferentes mudanças de contexto.

Apenas decorar o passado é uma tarefa muito fácil para as máquinas. O verdadeiro teste para a IA não está em como o algoritmo responde ao conhecido, mas em como descobre o desconhecido.

Opinião por Alexandre Chiavegatto Filho

Professor Livre Docente de inteligência artificial na Faculdade de Saúde Pública da USP

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.