THE NEW YORK TIMES - O ChatGPT, um chatbot amplamente utilizado, foi projetado para gerar textos digitais, desde poesias a trabalhos de conclusão de curso e programas de computador. Mas quando uma equipe de pesquisadores de inteligência artificial (IA) da empresa de chips de computador Nvidia colocou as mãos na tecnologia subjacente do chatbot, eles perceberam que ele poderia fazer muito mais.
Em poucas semanas, eles o ensinaram a jogar Minecraft, um dos videogames mais populares do mundo. Dentro do universo digital do Minecraft, ele aprendeu a nadar, colher plantas, caçar porcos, minerar ouro e construir casas.
Leia mais
“Ele pode entrar no mundo do Minecraft, explorar e coletar materiais por conta própria e melhorar cada vez mais em todos os tipos de habilidades”, disse um cientista sênior de pesquisa da Nvidia, Linxi Fan, conhecido como Jim.
O projeto foi um sinal inicial de que os principais pesquisadores de inteligência artificial do mundo estão transformando os chatbots em um novo tipo de sistema autônomo chamado de agente de IA. Esses agentes podem fazer mais do que bater papo. Eles podem usar aplicativos de software, sites e outras ferramentas online, incluindo planilhas, calendários, sites de viagens e muito mais.
Com o tempo, dizem muitos pesquisadores, os agentes de IA poderão se tornar muito mais sofisticados e substituir os funcionários de escritório, automatizando praticamente qualquer trabalho de colarinho branco.
“Trata-se de uma enorme oportunidade comercial, potencialmente de trilhões de dólares”, disse Jeff Clune, professor de ciência da computação da Universidade da Columbia Britânica, que trabalhou anteriormente nesse tipo de tecnologia como pesquisador da OpenAI, a startup de São Francisco que criou o ChatGPT. “Isso tem um enorme lado positivo - e enormes consequências - para a sociedade.”
O agente da Nvidia joga um jogo. Agentes semelhantes podem agendar reuniões, editar arquivos, analisar dados e criar gráficos de barras multicoloridos. A ideia é que esses sistemas automatizados venham a atuar como assistentes pessoais capazes de lidar com uma ampla gama de tarefas na internet.
Os agentes atuais são limitados e não conseguem exatamente organizar sua vida. O ChatGPT pode pesquisar voos para Nova York em site de viagens, mas você ainda precisa fazer a reserva por conta própria.
Essa tecnologia, à medida que os pesquisadores a aperfeiçoam, pode tornar os funcionários de escritório e os consumidores mais eficientes. Ela também poderá mudar a natureza dos videogames, proporcionando uma nova onda de bots com os quais os jogadores poderão jogar e conversar.
O GPT-4, a tecnologia que sustenta o ChatGPT, é o que os pesquisadores chamam de modelo de linguagem ampla (LLM, na sigla em inglês). É um sistema de IA que aprende habilidades analisando grandes quantidades de dados.
Nos últimos meses, a tecnologia impressionou centenas de milhões de pessoas com a maneira como gera e-mails, escreve discursos e discorre sobre praticamente qualquer assunto. Mas sua habilidade mais importante pode ser a capacidade de escrever programas de computador.
Ele pode gerar instantaneamente um programa que desenha um unicórnio ou deixa cair neve digital na tela do seu laptop. Os desenvolvedores de software profissionais podem solicitar códigos que podem ser incorporados a programas maiores, desde aplicativos de rede social até mecanismos de pesquisa. Mas isso é apenas uma parte do que essa tecnologia pode fazer. Ela também pode gerar códigos de computador que se conectam a outros aplicativos de software e sites.
Foi assim que o Dr. Fan e outros pesquisadores da Nvidia ensinaram o GPT-4 a jogar Minecraft. “A palavra mais importante aqui é código”, disse o Dr. Fan. “O código pode realizar ações.”
As pessoas usam aplicativos de software e sites tocando em botões, menus e outros widgets gráficos. Os agentes de IA usam aplicativos e sites acessando suas interfaces de programação de aplicativos, ou APIs - o código de software subjacente que permite que eles se comuniquem com outros serviços online.
Se você pedir a um agente para fazer upload de um vídeo na internet, por exemplo, ele poderá gerar um código que chama uma API oferecida pelo YouTube. “Uma API é apenas um texto usado para falar com uma máquina”, disse Silen Naihin, pesquisador que ajuda a executar um projeto independente de agente de IA, o AutoGPT.
Em teoria, um chatbot pode escrever um código para acessar qualquer API na internet. Mas os chatbots atuais ainda não são hábeis o suficiente para realizar mais do que apenas tarefas simples. E mesmo que fossem, deixá-los vagar livremente pela internet seria um enorme risco de segurança. Portanto, as empresas estão começando aos poucos.
Alguns meses depois que a OpenAI revelou o ChatGPT, ela lançou discretamente uma maneira de o chatbot fazer mais do que gerar texto. Depois de instalar vários plugins - softwares que aumentam a capacidade do bot - você pode pedir que ele pesquise voos disponíveis em sites de viagens, pegue um mapa da sua cidade natal no Google Earth ou até mesmo transforme uma planilha detalhando seus gastos anuais em um gráfico de barras multicolorido.
Equipado com um plugin chamado interpretador de código, o ChatGPT podia não apenas escrever código, mas também executá-lo. Isso permitiu que a tecnologia executasse instantaneamente tarefas que não eram possíveis no passado, incluindo a edição de planilhas e a transformação de imagens estáticas em vídeos. O Google, a Microsoft e outras empresas estão explorando tecnologias semelhantes.
“Esses são projetos em que estamos visualizando essencialmente uma IA trabalhando com outra IA em seu nome”, disse Ashley Llorens, vice-presidente da Microsoft.
Projetos independentes, como o AutoGPT, estão tentando levar esse tipo de coisa mais longe. A ideia é dar ao sistema objetivos como “criar uma empresa” ou “ganhar dinheiro”. Em seguida, ele procurará maneiras de atingir esse objetivo fazendo perguntas a si mesmo e conectando-se a outros serviços de internet.
Atualmente, isso não funciona muito bem. Sistemas como o AutoGPT tendem a ficar presos em loops intermináveis. Mas pesquisadores como o Dr. Fan estão constantemente refinando esse tipo de tecnologia em um esforço para torná-la mais útil e mais confiável.
Outros pesquisadores estão criando um novo tipo de agente de IA projetado para usar ferramentas de software. No verão de 2022, o Dr. Clune estava entre uma equipe de pesquisadores da OpenAI que criou um agente capaz de usar software de computador da mesma forma que uma pessoa usaria - clique de mouse por clique de mouse, pressionamento de tecla por pressionamento de tecla.
O Dr. Clune e seus colegas alimentaram o sistema com horas de vídeos online que mostravam pessoas jogando Minecraft. Ao analisar a maneira como as pessoas usavam o mouse e o teclado para navegar pelo universo digital do Minecraft, o sistema aprendeu a jogar por conta própria.
Outras empresas, inclusive uma startup chamada Adept, estão criando agentes semelhantes que usam sites como Wikipedia, Redfin e Craigslist e aplicativos de escritório populares de empresas como Salesforce.
O Dr. Clune argumenta que esse tipo de agente acabará por permitir que a inteligência artificial use uma gama muito mais ampla de aplicativos de software e sites. Segundo ele, todos teriam acesso a um assistente digital que poderia fazer quase tudo na internet. Isso poderia facilitar a vida, mas também poderia substituir inúmeros empregos.
“Se a IA puder fazer tudo o que podemos fazer, ela não substituirá apenas as tarefas chatas”, disse ele. “Ela substitui todas as tarefas.”