A área de pesquisa em Inteligência Artificial (IA) pode ser subdividida de diversas formas, seja em função das técnicas utilizadas (como por exemplo sistemas especialistas, redes neurais artificiais, e computação evolutiva) ou dos problemas endereçados (visão computacional, processamento de linguagem, e sistemas preditivos). Atualmente, uma das técnicas de IA mais empregadas para o desenvolvimento de novas aplicações é conhecida como machine learning ou ML. De forma simplificada, em ML procura-se apresentar aos algoritmos a maior quantidade possível de dados, permitindo que os sistemas desenvolvam a capacidade de tirar conclusões autonomamente. Uma forma simplificada de descrever o processo é a seguinte: se quisermos ensinar um sistema de reconhecimento de imagens a identificar uma chave, apresentamos a maior quantidade possível de chaves para seu treinamento. Depois disso, a própria estrutura aprende a identificar se as imagens seguintes são ou não chaves – mesmo que o sistema nunca tenha visto uma determinada amostra durante seu treinamento.
Reconhecer uma imagem era uma tarefa na qual seres humanos possuíam clara vantagem sobre máquinas há relativamente pouco tempo. Mas iniciativas como o projeto ImageNet, idealizado em 2006, serviram para reduzir essa diferença significativamente. Liderado pela pesquisadora chinesa naturalizada norte-americana Fei-Fei Li, professora de Ciência da Computação da Universidade de Stanford nos EUA e que também atuou como diretora do Stanford Artificial Intelligence Lab (SAIL, Laboratório de Inteligência Artificial de Stanford), o projeto ImageNet consiste em um banco de dados com cerca de quinze milhões de imagens que foram classificadas por seres humanos.
Esse repositório de informações serve para o treinamento de algoritmos de visão computacional, e está disponível online gratuitamente. Para estimular o desenvolvimento da área de reconhecimento de imagens por computador, em 2010 foi criado o Desafio de Reconhecimento Visual de Grande Escala do ImageNet (ILSVRC, ImageNet Large Scale Visual Recognition Challenge), no qual sistemas desenvolvidos por equipes do mundo inteiro buscam classificar corretamente a imagem apresentada na tela. A evolução dos resultados obtidos ao longo de menos de uma década é uma prova dos avanços extraordinários obtidos no campo de deep learning (aprendizado profundo, uma das técnicas mais utilizadas na área de Inteligência Artificial atualmente): se em 2011 uma taxa de erro considerada boa era de cerca de 25%, em 2017 das 38 equipes participantes nada menos que 29 obtiveram uma taxa de erro inferior a 5%.
O desenvolvimento de programas de computador foi, durante décadas, baseado na equação “regras + dados = respostas”. Ou seja, as regras eram informadas previamente, os dados de entrada eram processados e uma resposta era produzida. O paradigma utilizado por sistemas baseados em deep learning é substancialmente distinto, e procura imitar a forma como seres humanos aprendem: “dados + respostas = regras”. Tipicamente implementado através de redes neurais artificiais, estruturas capazes de automaticamente extrair dos dados e das respostas as características necessárias para criação de regras, esses sistemas estão na linha de frente de, entre outras, plataformas de reconhecimento facial, reconhecimento de voz, visão computacional e medicina diagnóstica. Uma vez que um conjunto suficientemente grande de exemplos (“dados”) seja apresentado com suas respectivas classificações (“respostas”), o sistema obtém uma representação interna das regras – e passa a ser capaz de extrapolar as respostas para dados que nunca viu antes.
Embora o uso de sistemas baseados em deep learning sejam capazes de melhorar a precisão de virtualmente qualquer tarefa de classificação, é fundamental lembrar que sua precisão é altamente dependente da qualidade e do tipo de dados que utilizam durante a fase de aprendizado. E esse é um dos maiores fatores de risco para o uso dessa tecnologia: se o treinamento não for feito cuidadosamente, os resultados podem ser perigosos. Este será nosso tema para próxima coluna. Até lá.
*Fundador da GRIDS Capital e autor do livro "Futuro Presente - o mundo movido à tecnologia", vencedor do Prêmio Jabuti 2020 na categoria Ciências. É Engenheiro de Computação e Mestre em Inteligência Artificial