Como ‘agentes de inteligência artificial’ na internet podem substituir trabalhadores um dia


Pesquisadores estão transformando chatbots em agentes on-line que jogam, consultam sites, agendam reuniões, criam gráficos de barras e fazem muito mais

Por Cade Metz e Karen Weise

THE NEW YORK TIMES - LIFE/STYLE - O chatbot ChatGPT, amplamente utilizado, foi projetado para gerar texto digital, desde poesia até trabalhos de conclusão de curso e programas de computador. Mas quando uma equipe de pesquisadores de inteligência artificial da empresa de chips de computador Nvidia colocou as mãos na tecnologia básica do chatbot, eles perceberam que ele poderia fazer muito mais.

Os agentes de IA realizam tarefas por conta própria no videogame Minecraft. Foto: Nvidia via The New York Times

Em poucas semanas, eles o ensinaram a jogar Minecraft, um dos videogames mais populares do mundo. Dentro do universo digital do Minecraft, ele aprendeu a nadar, colher plantas, caçar porcos, minerar ouro e construir casas.

continua após a publicidade

“Ele pode entrar no mundo do Minecraft e explorar por conta própria, coletar materiais por conta própria e melhorar cada vez mais em todos os tipos de habilidades”, disse um cientista sênior de pesquisa da Nvidia, Linxi Fan, conhecido como Jim.

O projeto foi um sinal inicial de que os principais pesquisadores de inteligência artificial do mundo estão transformando os chatbots em um novo tipo de sistema autônomo chamado de agente de IA. Esses agentes podem fazer mais do que conversar. Eles podem usar aplicativos de software, sites e outras ferramentas on-line, incluindo planilhas, calendários on-line, sites de viagens e muito mais.

Com o tempo, dizem muitos pesquisadores, os agentes de IA poderão se tornar muito mais sofisticados e substituir os funcionários de escritório, automatizando praticamente qualquer trabalho de colarinho branco.

continua após a publicidade

“Trata-se de uma enorme oportunidade comercial, potencialmente de trilhões de dólares”, disse Jeff Clune, professor de ciência da computação da Universidade da Colúmbia Britânica, que trabalhou anteriormente nesse tipo de tecnologia como pesquisador da OpenAI, a startup de São Francisco que criou o ChatGPT. “Isso traz uma enorme vantagem - e enormes consequências - para a sociedade.”

O agente da Nvidia joga um jogo. Agentes semelhantes podem agendar reuniões, editar arquivos, analisar dados e criar gráficos de barras multicoloridos. A ideia é que esses sistemas automatizados acabem atuando como assistentes pessoais capazes de lidar com uma ampla gama de tarefas na Internet.

A partir da esquerda, Anima Anandkumar, diretor sênior de pesquisa de IA da Nvidia, com Yuke Zhu e Jim Fan, ambos cientistas pesquisadores seniores. Foto: Gabriela Hasbun/The New York Times
continua após a publicidade

Os agentes de hoje são limitados e não podem exatamente organizar sua vida. O ChatGPT pode pesquisar voos para Nova York no site de viagens Expedia, mas você ainda precisa fazer a reserva por conta própria.

Essa tecnologia, à medida que os pesquisadores a aperfeiçoam, pode tornar os funcionários de escritório e os consumidores mais eficientes. Ela também poderá mudar a natureza dos videogames, proporcionando uma nova onda de bots com os quais os jogadores poderão jogar e conversar.

O GPT-4, a tecnologia que sustenta o ChatGPT, é o que os pesquisadores chamam de grande modelo de linguagem. É um sistema de IA que aprende habilidades analisando grandes quantidades de dados.

continua após a publicidade

Nos últimos meses, a tecnologia impressionou centenas de milhões de pessoas com a maneira como gera e-mails, escreve discursos e discorre sobre praticamente qualquer assunto. Mas sua habilidade mais importante pode ser a de escrever programas de computador.

Ela pode gerar instantaneamente um programa que desenha um unicórnio ou deixa cair neve digital na tela do seu laptop. Os desenvolvedores de software profissionais podem solicitar códigos que podem ser incorporados a programas maiores, incluindo tudo, desde aplicativos de mídia social até mecanismos de pesquisa. Mas isso é apenas uma parte do que essa tecnologia pode fazer. Ela também pode gerar códigos de computador que acessam outros aplicativos de software e sites.

Foi assim que Fan e outros pesquisadores da Nvidia ensinaram o GPT-4 a jogar Minecraft. “A palavra mais importante aqui é código”, disse Fan. “O código pode realizar ações”.

continua após a publicidade
Jeff Clune, um ex-pesquisador da OpenAI que agora é professor na Universidade da Colúmbia Britânica, disse que os agentes de IA poderiam eventualmente realizar trabalhos de colarinho branco. Foto: Alana Paterson/The New York Times

As pessoas usam aplicativos de software e sites tocando em botões, menus e outros widgets gráficos. Os agentes de IA usam aplicativos e sites acessando suas interfaces de programação de aplicações, ou APIs - o código de software subjacente que permite que eles se comuniquem com outros serviços on-line.

Se você pedir a um agente para fazer um upload de um vídeo para a internet, por exemplo, ele poderá gerar um código que chama uma API oferecida pelo YouTube. “Uma API é apenas um texto usado para se comunicar com uma máquina”, disse Silen Naihin, pesquisador que ajuda a administrar um projeto de agente independente de IA, o AutoGPT.

continua após a publicidade

Em teoria, um chatbot pode escrever código para acessar qualquer API na Internet. Mas os chatbots atuais ainda não são hábeis o suficiente para fazer mais do que apenas tarefas simples. E mesmo que fossem, deixá-los vagar livremente pela Internet seria um enorme risco de segurança. Portanto, as empresas estão começando aos poucos.

Alguns meses depois que a OpenAI revelou o ChatGPT, ela lançou discretamente uma maneira do chatbot fazer mais do que gerar texto. Depois de instalar vários plug-ins - softwares que aumentam a capacidade do bot - você pode pedir que ele pesquise voos disponíveis em sites de viagens, como o Expedia, pegue um mapa da sua cidade natal no Google Earth ou até mesmo transforme uma planilha detalhando seus gastos anuais em um gráfico de barras multicolorido.

Equipado com um plug-in chamado interpretador de código, o ChatGPT podia não apenas escrever código, mas também executá-lo. Isso permitiu que a tecnologia executasse instantaneamente tarefas que não eram possíveis no passado, incluindo a edição de planilhas e a transformação de imagens estáticas em vídeos. O Google, a Microsoft e outras empresas estão explorando tecnologias semelhantes.

“Esses são projetos em que vislumbramos essencialmente IAs trabalhando com outras IAs em seu nome”, disse Ashley Llorens, vice-presidente da Microsoft.

A chess board in the office of Jeff Clune, a former OpenAI researcher Objetos e peças de xadrez no escritório do Dr. Clune foram criados por IA e impressos em uma impressora 3D. Foto: Alana Paterson/The New York Times

Projetos independentes, como o AutoGPT, estão tentando levar esse tipo de coisa mais longe. A ideia é dar ao sistema objetivos como “criar uma empresa” ou “ganhar dinheiro”. Em seguida, ele procurará maneiras de atingir essa meta fazendo perguntas a si mesmo e conectando-se a outros serviços da Internet.

Atualmente, isso não funciona muito bem. Sistemas como o AutoGPT tendem a ficar presos em loops intermináveis. Mas pesquisadores como Fan estão constantemente refinando esse tipo de tecnologia em um esforço para torná-la mais útil e mais confiável.

Outros pesquisadores estão criando um novo tipo de agente de IA projetado para usar ferramentas de software. No verão de 2022, Clune fazia parte de uma equipe de pesquisadores da OpenAI que criou um agente capaz de usar software de computador da mesma forma que uma pessoa usaria - clique de mouse por clique de mouse, batida de tecla por batida de tecla.

Clune argumenta que esse tipo de agente acabará permitindo que a inteligência artificial use uma gama muito mais ampla de aplicativos de software e sites. Segundo ele, todos teriam acesso a um assistente digital que poderia fazer quase tudo na Internet. Isso poderia facilitar a vida - mas também poderia substituir inúmeros empregos.

“Se a IA pode fazer tudo o que podemos fazer, ela não substitui apenas as tarefas chatas”, disse ele. “Ela substitui todas as tarefas.” /TRADUÇÃO LÍVIA BUELONI GONÇALVES

The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times

THE NEW YORK TIMES - LIFE/STYLE - O chatbot ChatGPT, amplamente utilizado, foi projetado para gerar texto digital, desde poesia até trabalhos de conclusão de curso e programas de computador. Mas quando uma equipe de pesquisadores de inteligência artificial da empresa de chips de computador Nvidia colocou as mãos na tecnologia básica do chatbot, eles perceberam que ele poderia fazer muito mais.

Os agentes de IA realizam tarefas por conta própria no videogame Minecraft. Foto: Nvidia via The New York Times

Em poucas semanas, eles o ensinaram a jogar Minecraft, um dos videogames mais populares do mundo. Dentro do universo digital do Minecraft, ele aprendeu a nadar, colher plantas, caçar porcos, minerar ouro e construir casas.

“Ele pode entrar no mundo do Minecraft e explorar por conta própria, coletar materiais por conta própria e melhorar cada vez mais em todos os tipos de habilidades”, disse um cientista sênior de pesquisa da Nvidia, Linxi Fan, conhecido como Jim.

O projeto foi um sinal inicial de que os principais pesquisadores de inteligência artificial do mundo estão transformando os chatbots em um novo tipo de sistema autônomo chamado de agente de IA. Esses agentes podem fazer mais do que conversar. Eles podem usar aplicativos de software, sites e outras ferramentas on-line, incluindo planilhas, calendários on-line, sites de viagens e muito mais.

Com o tempo, dizem muitos pesquisadores, os agentes de IA poderão se tornar muito mais sofisticados e substituir os funcionários de escritório, automatizando praticamente qualquer trabalho de colarinho branco.

“Trata-se de uma enorme oportunidade comercial, potencialmente de trilhões de dólares”, disse Jeff Clune, professor de ciência da computação da Universidade da Colúmbia Britânica, que trabalhou anteriormente nesse tipo de tecnologia como pesquisador da OpenAI, a startup de São Francisco que criou o ChatGPT. “Isso traz uma enorme vantagem - e enormes consequências - para a sociedade.”

O agente da Nvidia joga um jogo. Agentes semelhantes podem agendar reuniões, editar arquivos, analisar dados e criar gráficos de barras multicoloridos. A ideia é que esses sistemas automatizados acabem atuando como assistentes pessoais capazes de lidar com uma ampla gama de tarefas na Internet.

A partir da esquerda, Anima Anandkumar, diretor sênior de pesquisa de IA da Nvidia, com Yuke Zhu e Jim Fan, ambos cientistas pesquisadores seniores. Foto: Gabriela Hasbun/The New York Times

Os agentes de hoje são limitados e não podem exatamente organizar sua vida. O ChatGPT pode pesquisar voos para Nova York no site de viagens Expedia, mas você ainda precisa fazer a reserva por conta própria.

Essa tecnologia, à medida que os pesquisadores a aperfeiçoam, pode tornar os funcionários de escritório e os consumidores mais eficientes. Ela também poderá mudar a natureza dos videogames, proporcionando uma nova onda de bots com os quais os jogadores poderão jogar e conversar.

O GPT-4, a tecnologia que sustenta o ChatGPT, é o que os pesquisadores chamam de grande modelo de linguagem. É um sistema de IA que aprende habilidades analisando grandes quantidades de dados.

Nos últimos meses, a tecnologia impressionou centenas de milhões de pessoas com a maneira como gera e-mails, escreve discursos e discorre sobre praticamente qualquer assunto. Mas sua habilidade mais importante pode ser a de escrever programas de computador.

Ela pode gerar instantaneamente um programa que desenha um unicórnio ou deixa cair neve digital na tela do seu laptop. Os desenvolvedores de software profissionais podem solicitar códigos que podem ser incorporados a programas maiores, incluindo tudo, desde aplicativos de mídia social até mecanismos de pesquisa. Mas isso é apenas uma parte do que essa tecnologia pode fazer. Ela também pode gerar códigos de computador que acessam outros aplicativos de software e sites.

Foi assim que Fan e outros pesquisadores da Nvidia ensinaram o GPT-4 a jogar Minecraft. “A palavra mais importante aqui é código”, disse Fan. “O código pode realizar ações”.

Jeff Clune, um ex-pesquisador da OpenAI que agora é professor na Universidade da Colúmbia Britânica, disse que os agentes de IA poderiam eventualmente realizar trabalhos de colarinho branco. Foto: Alana Paterson/The New York Times

As pessoas usam aplicativos de software e sites tocando em botões, menus e outros widgets gráficos. Os agentes de IA usam aplicativos e sites acessando suas interfaces de programação de aplicações, ou APIs - o código de software subjacente que permite que eles se comuniquem com outros serviços on-line.

Se você pedir a um agente para fazer um upload de um vídeo para a internet, por exemplo, ele poderá gerar um código que chama uma API oferecida pelo YouTube. “Uma API é apenas um texto usado para se comunicar com uma máquina”, disse Silen Naihin, pesquisador que ajuda a administrar um projeto de agente independente de IA, o AutoGPT.

Em teoria, um chatbot pode escrever código para acessar qualquer API na Internet. Mas os chatbots atuais ainda não são hábeis o suficiente para fazer mais do que apenas tarefas simples. E mesmo que fossem, deixá-los vagar livremente pela Internet seria um enorme risco de segurança. Portanto, as empresas estão começando aos poucos.

Alguns meses depois que a OpenAI revelou o ChatGPT, ela lançou discretamente uma maneira do chatbot fazer mais do que gerar texto. Depois de instalar vários plug-ins - softwares que aumentam a capacidade do bot - você pode pedir que ele pesquise voos disponíveis em sites de viagens, como o Expedia, pegue um mapa da sua cidade natal no Google Earth ou até mesmo transforme uma planilha detalhando seus gastos anuais em um gráfico de barras multicolorido.

Equipado com um plug-in chamado interpretador de código, o ChatGPT podia não apenas escrever código, mas também executá-lo. Isso permitiu que a tecnologia executasse instantaneamente tarefas que não eram possíveis no passado, incluindo a edição de planilhas e a transformação de imagens estáticas em vídeos. O Google, a Microsoft e outras empresas estão explorando tecnologias semelhantes.

“Esses são projetos em que vislumbramos essencialmente IAs trabalhando com outras IAs em seu nome”, disse Ashley Llorens, vice-presidente da Microsoft.

A chess board in the office of Jeff Clune, a former OpenAI researcher Objetos e peças de xadrez no escritório do Dr. Clune foram criados por IA e impressos em uma impressora 3D. Foto: Alana Paterson/The New York Times

Projetos independentes, como o AutoGPT, estão tentando levar esse tipo de coisa mais longe. A ideia é dar ao sistema objetivos como “criar uma empresa” ou “ganhar dinheiro”. Em seguida, ele procurará maneiras de atingir essa meta fazendo perguntas a si mesmo e conectando-se a outros serviços da Internet.

Atualmente, isso não funciona muito bem. Sistemas como o AutoGPT tendem a ficar presos em loops intermináveis. Mas pesquisadores como Fan estão constantemente refinando esse tipo de tecnologia em um esforço para torná-la mais útil e mais confiável.

Outros pesquisadores estão criando um novo tipo de agente de IA projetado para usar ferramentas de software. No verão de 2022, Clune fazia parte de uma equipe de pesquisadores da OpenAI que criou um agente capaz de usar software de computador da mesma forma que uma pessoa usaria - clique de mouse por clique de mouse, batida de tecla por batida de tecla.

Clune argumenta que esse tipo de agente acabará permitindo que a inteligência artificial use uma gama muito mais ampla de aplicativos de software e sites. Segundo ele, todos teriam acesso a um assistente digital que poderia fazer quase tudo na Internet. Isso poderia facilitar a vida - mas também poderia substituir inúmeros empregos.

“Se a IA pode fazer tudo o que podemos fazer, ela não substitui apenas as tarefas chatas”, disse ele. “Ela substitui todas as tarefas.” /TRADUÇÃO LÍVIA BUELONI GONÇALVES

The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times

THE NEW YORK TIMES - LIFE/STYLE - O chatbot ChatGPT, amplamente utilizado, foi projetado para gerar texto digital, desde poesia até trabalhos de conclusão de curso e programas de computador. Mas quando uma equipe de pesquisadores de inteligência artificial da empresa de chips de computador Nvidia colocou as mãos na tecnologia básica do chatbot, eles perceberam que ele poderia fazer muito mais.

Os agentes de IA realizam tarefas por conta própria no videogame Minecraft. Foto: Nvidia via The New York Times

Em poucas semanas, eles o ensinaram a jogar Minecraft, um dos videogames mais populares do mundo. Dentro do universo digital do Minecraft, ele aprendeu a nadar, colher plantas, caçar porcos, minerar ouro e construir casas.

“Ele pode entrar no mundo do Minecraft e explorar por conta própria, coletar materiais por conta própria e melhorar cada vez mais em todos os tipos de habilidades”, disse um cientista sênior de pesquisa da Nvidia, Linxi Fan, conhecido como Jim.

O projeto foi um sinal inicial de que os principais pesquisadores de inteligência artificial do mundo estão transformando os chatbots em um novo tipo de sistema autônomo chamado de agente de IA. Esses agentes podem fazer mais do que conversar. Eles podem usar aplicativos de software, sites e outras ferramentas on-line, incluindo planilhas, calendários on-line, sites de viagens e muito mais.

Com o tempo, dizem muitos pesquisadores, os agentes de IA poderão se tornar muito mais sofisticados e substituir os funcionários de escritório, automatizando praticamente qualquer trabalho de colarinho branco.

“Trata-se de uma enorme oportunidade comercial, potencialmente de trilhões de dólares”, disse Jeff Clune, professor de ciência da computação da Universidade da Colúmbia Britânica, que trabalhou anteriormente nesse tipo de tecnologia como pesquisador da OpenAI, a startup de São Francisco que criou o ChatGPT. “Isso traz uma enorme vantagem - e enormes consequências - para a sociedade.”

O agente da Nvidia joga um jogo. Agentes semelhantes podem agendar reuniões, editar arquivos, analisar dados e criar gráficos de barras multicoloridos. A ideia é que esses sistemas automatizados acabem atuando como assistentes pessoais capazes de lidar com uma ampla gama de tarefas na Internet.

A partir da esquerda, Anima Anandkumar, diretor sênior de pesquisa de IA da Nvidia, com Yuke Zhu e Jim Fan, ambos cientistas pesquisadores seniores. Foto: Gabriela Hasbun/The New York Times

Os agentes de hoje são limitados e não podem exatamente organizar sua vida. O ChatGPT pode pesquisar voos para Nova York no site de viagens Expedia, mas você ainda precisa fazer a reserva por conta própria.

Essa tecnologia, à medida que os pesquisadores a aperfeiçoam, pode tornar os funcionários de escritório e os consumidores mais eficientes. Ela também poderá mudar a natureza dos videogames, proporcionando uma nova onda de bots com os quais os jogadores poderão jogar e conversar.

O GPT-4, a tecnologia que sustenta o ChatGPT, é o que os pesquisadores chamam de grande modelo de linguagem. É um sistema de IA que aprende habilidades analisando grandes quantidades de dados.

Nos últimos meses, a tecnologia impressionou centenas de milhões de pessoas com a maneira como gera e-mails, escreve discursos e discorre sobre praticamente qualquer assunto. Mas sua habilidade mais importante pode ser a de escrever programas de computador.

Ela pode gerar instantaneamente um programa que desenha um unicórnio ou deixa cair neve digital na tela do seu laptop. Os desenvolvedores de software profissionais podem solicitar códigos que podem ser incorporados a programas maiores, incluindo tudo, desde aplicativos de mídia social até mecanismos de pesquisa. Mas isso é apenas uma parte do que essa tecnologia pode fazer. Ela também pode gerar códigos de computador que acessam outros aplicativos de software e sites.

Foi assim que Fan e outros pesquisadores da Nvidia ensinaram o GPT-4 a jogar Minecraft. “A palavra mais importante aqui é código”, disse Fan. “O código pode realizar ações”.

Jeff Clune, um ex-pesquisador da OpenAI que agora é professor na Universidade da Colúmbia Britânica, disse que os agentes de IA poderiam eventualmente realizar trabalhos de colarinho branco. Foto: Alana Paterson/The New York Times

As pessoas usam aplicativos de software e sites tocando em botões, menus e outros widgets gráficos. Os agentes de IA usam aplicativos e sites acessando suas interfaces de programação de aplicações, ou APIs - o código de software subjacente que permite que eles se comuniquem com outros serviços on-line.

Se você pedir a um agente para fazer um upload de um vídeo para a internet, por exemplo, ele poderá gerar um código que chama uma API oferecida pelo YouTube. “Uma API é apenas um texto usado para se comunicar com uma máquina”, disse Silen Naihin, pesquisador que ajuda a administrar um projeto de agente independente de IA, o AutoGPT.

Em teoria, um chatbot pode escrever código para acessar qualquer API na Internet. Mas os chatbots atuais ainda não são hábeis o suficiente para fazer mais do que apenas tarefas simples. E mesmo que fossem, deixá-los vagar livremente pela Internet seria um enorme risco de segurança. Portanto, as empresas estão começando aos poucos.

Alguns meses depois que a OpenAI revelou o ChatGPT, ela lançou discretamente uma maneira do chatbot fazer mais do que gerar texto. Depois de instalar vários plug-ins - softwares que aumentam a capacidade do bot - você pode pedir que ele pesquise voos disponíveis em sites de viagens, como o Expedia, pegue um mapa da sua cidade natal no Google Earth ou até mesmo transforme uma planilha detalhando seus gastos anuais em um gráfico de barras multicolorido.

Equipado com um plug-in chamado interpretador de código, o ChatGPT podia não apenas escrever código, mas também executá-lo. Isso permitiu que a tecnologia executasse instantaneamente tarefas que não eram possíveis no passado, incluindo a edição de planilhas e a transformação de imagens estáticas em vídeos. O Google, a Microsoft e outras empresas estão explorando tecnologias semelhantes.

“Esses são projetos em que vislumbramos essencialmente IAs trabalhando com outras IAs em seu nome”, disse Ashley Llorens, vice-presidente da Microsoft.

A chess board in the office of Jeff Clune, a former OpenAI researcher Objetos e peças de xadrez no escritório do Dr. Clune foram criados por IA e impressos em uma impressora 3D. Foto: Alana Paterson/The New York Times

Projetos independentes, como o AutoGPT, estão tentando levar esse tipo de coisa mais longe. A ideia é dar ao sistema objetivos como “criar uma empresa” ou “ganhar dinheiro”. Em seguida, ele procurará maneiras de atingir essa meta fazendo perguntas a si mesmo e conectando-se a outros serviços da Internet.

Atualmente, isso não funciona muito bem. Sistemas como o AutoGPT tendem a ficar presos em loops intermináveis. Mas pesquisadores como Fan estão constantemente refinando esse tipo de tecnologia em um esforço para torná-la mais útil e mais confiável.

Outros pesquisadores estão criando um novo tipo de agente de IA projetado para usar ferramentas de software. No verão de 2022, Clune fazia parte de uma equipe de pesquisadores da OpenAI que criou um agente capaz de usar software de computador da mesma forma que uma pessoa usaria - clique de mouse por clique de mouse, batida de tecla por batida de tecla.

Clune argumenta que esse tipo de agente acabará permitindo que a inteligência artificial use uma gama muito mais ampla de aplicativos de software e sites. Segundo ele, todos teriam acesso a um assistente digital que poderia fazer quase tudo na Internet. Isso poderia facilitar a vida - mas também poderia substituir inúmeros empregos.

“Se a IA pode fazer tudo o que podemos fazer, ela não substitui apenas as tarefas chatas”, disse ele. “Ela substitui todas as tarefas.” /TRADUÇÃO LÍVIA BUELONI GONÇALVES

The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times

THE NEW YORK TIMES - LIFE/STYLE - O chatbot ChatGPT, amplamente utilizado, foi projetado para gerar texto digital, desde poesia até trabalhos de conclusão de curso e programas de computador. Mas quando uma equipe de pesquisadores de inteligência artificial da empresa de chips de computador Nvidia colocou as mãos na tecnologia básica do chatbot, eles perceberam que ele poderia fazer muito mais.

Os agentes de IA realizam tarefas por conta própria no videogame Minecraft. Foto: Nvidia via The New York Times

Em poucas semanas, eles o ensinaram a jogar Minecraft, um dos videogames mais populares do mundo. Dentro do universo digital do Minecraft, ele aprendeu a nadar, colher plantas, caçar porcos, minerar ouro e construir casas.

“Ele pode entrar no mundo do Minecraft e explorar por conta própria, coletar materiais por conta própria e melhorar cada vez mais em todos os tipos de habilidades”, disse um cientista sênior de pesquisa da Nvidia, Linxi Fan, conhecido como Jim.

O projeto foi um sinal inicial de que os principais pesquisadores de inteligência artificial do mundo estão transformando os chatbots em um novo tipo de sistema autônomo chamado de agente de IA. Esses agentes podem fazer mais do que conversar. Eles podem usar aplicativos de software, sites e outras ferramentas on-line, incluindo planilhas, calendários on-line, sites de viagens e muito mais.

Com o tempo, dizem muitos pesquisadores, os agentes de IA poderão se tornar muito mais sofisticados e substituir os funcionários de escritório, automatizando praticamente qualquer trabalho de colarinho branco.

“Trata-se de uma enorme oportunidade comercial, potencialmente de trilhões de dólares”, disse Jeff Clune, professor de ciência da computação da Universidade da Colúmbia Britânica, que trabalhou anteriormente nesse tipo de tecnologia como pesquisador da OpenAI, a startup de São Francisco que criou o ChatGPT. “Isso traz uma enorme vantagem - e enormes consequências - para a sociedade.”

O agente da Nvidia joga um jogo. Agentes semelhantes podem agendar reuniões, editar arquivos, analisar dados e criar gráficos de barras multicoloridos. A ideia é que esses sistemas automatizados acabem atuando como assistentes pessoais capazes de lidar com uma ampla gama de tarefas na Internet.

A partir da esquerda, Anima Anandkumar, diretor sênior de pesquisa de IA da Nvidia, com Yuke Zhu e Jim Fan, ambos cientistas pesquisadores seniores. Foto: Gabriela Hasbun/The New York Times

Os agentes de hoje são limitados e não podem exatamente organizar sua vida. O ChatGPT pode pesquisar voos para Nova York no site de viagens Expedia, mas você ainda precisa fazer a reserva por conta própria.

Essa tecnologia, à medida que os pesquisadores a aperfeiçoam, pode tornar os funcionários de escritório e os consumidores mais eficientes. Ela também poderá mudar a natureza dos videogames, proporcionando uma nova onda de bots com os quais os jogadores poderão jogar e conversar.

O GPT-4, a tecnologia que sustenta o ChatGPT, é o que os pesquisadores chamam de grande modelo de linguagem. É um sistema de IA que aprende habilidades analisando grandes quantidades de dados.

Nos últimos meses, a tecnologia impressionou centenas de milhões de pessoas com a maneira como gera e-mails, escreve discursos e discorre sobre praticamente qualquer assunto. Mas sua habilidade mais importante pode ser a de escrever programas de computador.

Ela pode gerar instantaneamente um programa que desenha um unicórnio ou deixa cair neve digital na tela do seu laptop. Os desenvolvedores de software profissionais podem solicitar códigos que podem ser incorporados a programas maiores, incluindo tudo, desde aplicativos de mídia social até mecanismos de pesquisa. Mas isso é apenas uma parte do que essa tecnologia pode fazer. Ela também pode gerar códigos de computador que acessam outros aplicativos de software e sites.

Foi assim que Fan e outros pesquisadores da Nvidia ensinaram o GPT-4 a jogar Minecraft. “A palavra mais importante aqui é código”, disse Fan. “O código pode realizar ações”.

Jeff Clune, um ex-pesquisador da OpenAI que agora é professor na Universidade da Colúmbia Britânica, disse que os agentes de IA poderiam eventualmente realizar trabalhos de colarinho branco. Foto: Alana Paterson/The New York Times

As pessoas usam aplicativos de software e sites tocando em botões, menus e outros widgets gráficos. Os agentes de IA usam aplicativos e sites acessando suas interfaces de programação de aplicações, ou APIs - o código de software subjacente que permite que eles se comuniquem com outros serviços on-line.

Se você pedir a um agente para fazer um upload de um vídeo para a internet, por exemplo, ele poderá gerar um código que chama uma API oferecida pelo YouTube. “Uma API é apenas um texto usado para se comunicar com uma máquina”, disse Silen Naihin, pesquisador que ajuda a administrar um projeto de agente independente de IA, o AutoGPT.

Em teoria, um chatbot pode escrever código para acessar qualquer API na Internet. Mas os chatbots atuais ainda não são hábeis o suficiente para fazer mais do que apenas tarefas simples. E mesmo que fossem, deixá-los vagar livremente pela Internet seria um enorme risco de segurança. Portanto, as empresas estão começando aos poucos.

Alguns meses depois que a OpenAI revelou o ChatGPT, ela lançou discretamente uma maneira do chatbot fazer mais do que gerar texto. Depois de instalar vários plug-ins - softwares que aumentam a capacidade do bot - você pode pedir que ele pesquise voos disponíveis em sites de viagens, como o Expedia, pegue um mapa da sua cidade natal no Google Earth ou até mesmo transforme uma planilha detalhando seus gastos anuais em um gráfico de barras multicolorido.

Equipado com um plug-in chamado interpretador de código, o ChatGPT podia não apenas escrever código, mas também executá-lo. Isso permitiu que a tecnologia executasse instantaneamente tarefas que não eram possíveis no passado, incluindo a edição de planilhas e a transformação de imagens estáticas em vídeos. O Google, a Microsoft e outras empresas estão explorando tecnologias semelhantes.

“Esses são projetos em que vislumbramos essencialmente IAs trabalhando com outras IAs em seu nome”, disse Ashley Llorens, vice-presidente da Microsoft.

A chess board in the office of Jeff Clune, a former OpenAI researcher Objetos e peças de xadrez no escritório do Dr. Clune foram criados por IA e impressos em uma impressora 3D. Foto: Alana Paterson/The New York Times

Projetos independentes, como o AutoGPT, estão tentando levar esse tipo de coisa mais longe. A ideia é dar ao sistema objetivos como “criar uma empresa” ou “ganhar dinheiro”. Em seguida, ele procurará maneiras de atingir essa meta fazendo perguntas a si mesmo e conectando-se a outros serviços da Internet.

Atualmente, isso não funciona muito bem. Sistemas como o AutoGPT tendem a ficar presos em loops intermináveis. Mas pesquisadores como Fan estão constantemente refinando esse tipo de tecnologia em um esforço para torná-la mais útil e mais confiável.

Outros pesquisadores estão criando um novo tipo de agente de IA projetado para usar ferramentas de software. No verão de 2022, Clune fazia parte de uma equipe de pesquisadores da OpenAI que criou um agente capaz de usar software de computador da mesma forma que uma pessoa usaria - clique de mouse por clique de mouse, batida de tecla por batida de tecla.

Clune argumenta que esse tipo de agente acabará permitindo que a inteligência artificial use uma gama muito mais ampla de aplicativos de software e sites. Segundo ele, todos teriam acesso a um assistente digital que poderia fazer quase tudo na Internet. Isso poderia facilitar a vida - mas também poderia substituir inúmeros empregos.

“Se a IA pode fazer tudo o que podemos fazer, ela não substitui apenas as tarefas chatas”, disse ele. “Ela substitui todas as tarefas.” /TRADUÇÃO LÍVIA BUELONI GONÇALVES

The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.