Há um problema com as principais ferramentas de inteligência artificial (IA), como ChatGPT, Gemini e Claude: não sabemos realmente o quanto elas são inteligentes.
Isso porque, diferentemente das empresas que fabricam carros, medicamentos ou fórmulas para bebês, as empresas de IA não são obrigadas a submeter seus produtos a testes antes de lançá-los ao público. Não há um selo de qualidade para chatbots de IA, e poucos grupos independentes estão testando essas ferramentas de forma rigorosa.
Em vez disso, temos que confiar nas afirmações das empresas de IA, que geralmente usam frases vagas e confusas como “recursos aprimorados” para descrever como seus modelos diferem de uma versão para outra. E, embora existam alguns testes padrão aplicados aos modelos de IA para avaliar a qualidade deles em, por exemplo, matemática ou raciocínio lógico, muitos especialistas têm dúvidas sobre a confiabilidade desses testes.
Isso pode parecer uma reclamação insignificante. Mas estou convencido de que a falta de uma boa medição e avaliação dos sistemas de IA é um grande problema.
Para começar, sem informações confiáveis sobre os produtos de IA, como as pessoas saberão o que fazer com eles?
Não consigo contar o número de vezes que um amigo ou colega me perguntou, no ano passado, qual ferramenta de IA ele deveria usar para uma determinada tarefa. O ChatGPT ou o Gemini escreve melhor código Python? O DALL-E 3 ou o Midjourney é melhor para gerar imagens realistas de pessoas?
Em geral, dou de ombros em resposta. Mesmo como alguém que escreve sobre IA para ganhar a vida e testa novas ferramentas constantemente, achei extremamente difícil manter o controle dos pontos fortes e fracos relativos de vários produtos de IA. A maioria das empresas de tecnologia não publica manuais de usuário ou notas de lançamento detalhadas de seus produtos de IA. E os modelos são atualizados com tanta frequência que um chatbot que tem dificuldades com uma tarefa em um dia pode misteriosamente ser excelente no dia seguinte.
A medição de má qualidade também cria um risco de segurança. Sem testes melhores para os modelos de IA, é difícil saber quais recursos estão melhorando mais rápido do que o esperado ou quais produtos podem representar ameaças reais de danos.
No AI Index deste ano - um grande relatório anual publicado pelo Instituto de Inteligência Artificial Centrada no Ser Humano da Universidade Stanford - os autores descrevem a medição deficiente como um dos maiores desafios enfrentados pelos pesquisadores de IA.
“A falta de uma avaliação padronizada torna extremamente desafiador comparar sistematicamente as limitações e os riscos de vários modelos de IA”, me disse o editor-chefe do relatório, Nestor Maslej.
Durante anos, o método mais popular para medir a inteligência artificial foi o chamado Teste de Turing - um exercício proposto em 1950 pelo matemático Alan Turing, que testa se um programa de computador pode enganar uma pessoa, fazendo-a confundir suas respostas com as de um ser humano.
Mas os sistemas de IA atuais podem passar no Teste de Turing com louvor, e os pesquisadores tiveram que criar avaliações novas e mais difíceis.
Um dos testes mais comuns aplicados aos modelos de IA atualmente - o vestibular para chatbots, basicamente - é um teste conhecido como Massive Multitask Language Understanding (MMLU).
O MMLU, que foi lançado em 2020, consiste em uma coleção de aproximadamente 16 mil perguntas de múltipla escolha que abrangem dezenas de assuntos acadêmicos, desde álgebra abstrata até direito e medicina. Supõe-se que seja um tipo de teste de inteligência geral - quanto mais perguntas um chatbot responder corretamente, mais inteligente ele será.
Leia também
Ele se tornou o padrão para as empresas de IA que competem pelo domínio da tecnologia (quando o Google lançou seu modelo de IA mais avançado, o Gemini Ultra, no início deste ano, ele se vangloriou de ter obtido 90% de pontuação no MMLU - a pontuação mais alta já registrada).
Dan Hendrycks, um pesquisador de segurança de IA que ajudou a desenvolver o MMLU durante sua pós-graduação na Universidade da Califórnia, em Berkeley, me disse que o teste nunca deveria ter sido usado para se gabar. Ele estava alarmado com a rapidez com que os sistemas de IA estavam melhorando e queria incentivar os pesquisadores a levá-lo mais a sério.
Hendrycks diz que, embora acreditasse que o MMLU “provavelmente tenha mais um ou dois anos de vida útil”, logo precisará ser substituído por testes diferentes e mais difíceis. Os sistemas de IA estão ficando inteligentes demais para os testes que temos agora, e está ficando mais difícil criar novos testes.
“Todos esses benchmarks estão errados, mas alguns são úteis”, diz ele. “Alguns deles podem ser úteis por um período fixo de tempo, mas, em algum momento, a pressão é tão grande que chega ao ponto de ruptura.”
Há dezenas de outros testes no mercado - com nomes como TruthfulQA e HellaSwag - que têm como objetivo capturar outras facetas do desempenho da IA. Mas, assim como o vestibular capta apenas parte do intelecto e da capacidade de um aluno, esses testes são capazes de medir apenas uma pequena parte do poder de um sistema de IA.
E nenhum deles foi projetado para responder às perguntas mais subjetivas que muitos usuários têm, tais como: É divertido conversar com esse chatbot? Ele é melhor para automatizar o trabalho rotineiro de escritório ou para o brainstorming criativo? Quão rígidas são suas proteções de segurança?
Também pode haver problemas com os próprios testes. Vários pesquisadores com quem conversei alertaram que o processo de administração de testes de benchmark como o MMLU varia ligeiramente de empresa para empresa e que as pontuações de vários modelos podem não ser diretamente comparáveis.
Há um problema conhecido como “contaminação de dados”, quando as perguntas e respostas dos testes de benchmark são incluídas nos dados de treinamento de um modelo de IA, o que essencialmente permite que ele “cole”. E não há nenhum teste independente ou processo de auditoria para esses modelos, o que significa que as empresas de IA estão basicamente avaliando sua própria lição de casa.
Em resumo, a medição da IA é uma bagunça - um emaranhado de testes desleixados, comparações de maçãs com laranjas e propaganda egoísta que deixou os usuários, os reguladores e os próprios desenvolvedores de IA no escuro.
“Apesar da aparência de ciência, a maioria dos desenvolvedores realmente julga os modelos com base em vibrações ou instinto”, diz Nathan Benaich, investidor de IA da Air Street Capital. “Isso pode ser bom no momento, mas à medida que esses modelos aumentam em poder e relevância social, isso não será suficiente.”
A solução aqui é provavelmente uma combinação de esforços públicos e privados.
Os governos podem e devem criar programas de testes robustos que meçam tanto os recursos brutos quanto os riscos de segurança dos modelos de IA, e devem financiar subsídios e projetos de pesquisa com o objetivo de criar avaliações novas e de alta qualidade. Em sua ordem executiva sobre IA no ano passado, a Casa Branca orientou vários órgãos federais, inclusive o Instituto Nacional de Padrões e Tecnologia, a criar e supervisionar novas formas de avaliação dos sistemas de IA.
Alguns progressos também estão surgindo no meio acadêmico. No ano passado, pesquisadores de Stanford introduziram um novo teste para modelos de imagem de IA que utiliza avaliadores humanos, em vez de testes automatizados, para determinar a capacidade de um modelo. E um grupo de pesquisadores da Universidade da Califórnia, em Berkeley, iniciou recentemente o Chatbot Arena, uma popular tabela de classificação que coloca modelos de IA anônimos e aleatórios uns contra os outros e pede aos usuários que votem no melhor modelo.
As empresas de IA também podem ajudar, comprometendo-se a trabalhar com avaliadores e auditores terceirizados para testar seus modelos, disponibilizando novos modelos mais amplamente para os pesquisadores e sendo mais transparentes quando seus modelos forem atualizados. E na mídia, espero que surja algum tipo de publicação no estilo Wirecutter para assumir a tarefa de analisar novos produtos de IA de forma rigorosa e confiável.
Pesquisadores da Anthropic, a empresa de IA, escreveram em um blog no ano passado que “a governança eficaz da IA depende de nossa capacidade de avaliar significativamente os sistemas de IA”.
Eu concordo. A inteligência artificial é uma tecnologia importante demais para ser avaliada com base em na “vibe” que transmite. Até que tenhamos melhores maneiras de medir essas ferramentas, não saberemos como usá-las ou se seu progresso deve ser comemorado ou temido.
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.