THE NEW YORK TIMES - Um robô de um braço só ficou diante de uma mesa. Sobre a mesa, estavam três figuras de plástico: um leão, uma baleia e um dinossauro. Um engenheiro deu uma instrução ao robô: “Pegue o animal extinto”. O robô zumbiu por um momento, então seu braço se estendeu e sua garra abriu e desceu. Ele agarrou o dinossauro. Até muito recentemente, essa demonstração, que testemunhei durante uma entrevista em podcast na divisão de robótica do Google em Mountain View, Califórnia, na semana passada, teria sido impossível.
Robôs não eram capazes de manipular de forma confiável objetos que nunca haviam visto antes, e certamente não eram capazes de fazer o salto lógico de “animal extinto” para “dinossauro de plástico”. Mas uma revolução silenciosa está em andamento na robótica, que se beneficia dos recentes avanços nos chamados grandes modelos de linguagem - o mesmo tipo de sistema de inteligência artificial que alimenta o ChatGPT, Bard e outros chatbots inteligentes.
O Google recentemente começou a incorporar modelos de linguagem de última geração em seus robôs, dando-lhes o equivalente a cérebros artificiais. O projeto sigiloso tornou os robôs muito mais inteligentes e lhes deu novos poderes de compreensão e resolução de problemas. Tive uma visão desse progresso durante uma demonstração privada do último modelo de robótica do Google, chamado RT-2.
Tivemos que reconsiderar todo o nosso programa de pesquisa como resultado desta mudança
Vincent Vanhoucke, chefe de robótica da DeepMind
O modelo, revelado na sexta-feira, representa um primeiro passo para o que os executivos do Google descreveram como um grande avanço na maneira como os robôs são construídos e programados. “Tivemos que reconsiderar todo o nosso programa de pesquisa como resultado desta mudança”, disse Vincent Vanhoucke, chefe de robótica da DeepMind, empresa do Google. “Muitas das coisas em que estávamos trabalhando antes foram completamente invalidadas”.
Robôs ainda ficam aquém da destreza humana e falham em algumas tarefas básicas, mas o uso de modelos de linguagem de IA pelo Google para dar aos robôs novas habilidades de raciocínio e improviso representa um avanço promissor, disse Ken Goldberg, professor de robótica da Universidade da Califórnia, Berkeley. “O que é muito impressionante é como isso vincula semântica aos robôs”, disse ele. “Isso é muito emocionante para a robótica.”
Como funciona
Para entender a magnitude disso, é útil saber um pouco sobre como os robôs convencionalmente foram construídos. Por anos, a forma como os engenheiros do Google e de outras empresas treinavam robôs para realizar uma tarefa mecânica (virar um hambúrguer, por exemplo) era programando-os com uma lista específica de instruções. (Abaixe a espátula 6,5 polegadas, deslize-a para a frente até encontrar resistência, levante-a 4,2 polegadas, gire-a 180 graus, etc.)
Os robôs então praticariam a tarefa repetidamente, com os engenheiros ajustando as instruções a cada vez até acertarem. Essa abordagem funcionou para usos certos e limitados. Mas treinar robôs dessa maneira é lento e trabalhoso. Requer a coleta de muitos dados de testes do mundo real. E, se você quisesse ensinar um robô a fazer algo novo - virar uma panqueca em vez de um hambúrguer, digamos -, geralmente tinha que reprogramá-lo do zero. Parcialmente por causa dessas limitações, os robôs de hardware melhoraram menos rapidamente do que seus irmãos baseados em software.
A OpenAI, fabricante do ChatGPT, desfez sua equipe de robótica em 2021, citando progresso lento e falta de dados de treinamento de alta qualidade. Em 2017, a empresa-mãe do Google, Alphabet, vendeu a Boston Dynamics, uma empresa de robótica que havia adquirido, para o conglomerado de tecnologia japonês SoftBank. (A Boston Dynamics agora pertence à Hyundai e parece existir principalmente para produzir vídeos virais de robôs humanoides realizando proezas aterrorizantes de agilidade.)
Nos últimos anos, pesquisadores do Google tiveram uma ideia. E se, em vez de serem programados para tarefas específicas uma por uma, os robôs pudessem usar um modelo de linguagem IA - um que havia sido treinado em vastas extensões de texto da internet - para aprender novas habilidades por conta própria? “Começamos a brincar com esses modelos de linguagem cerca de dois anos atrás, e então percebemos que eles têm muito conhecimento neles”, disse Karol Hausman, um cientista de pesquisa do Google. “Então começamos a conectá-los aos robôs.”
A primeira tentativa do Google de unir modelos de linguagem e robôs físicos foi um projeto de pesquisa chamado PaLM-SayCan, revelado no ano passado. Atraiu alguma atenção, mas sua utilidade era limitada. Os robôs não tinham a capacidade de interpretar imagens - uma habilidade crucial, se você quer que eles possam navegar pelo mundo. Eles podiam escrever instruções passo a passo para diferentes tarefas, mas não podiam transformar essas etapas em ações.
Na prática
O novo modelo de robótica do Google, RT-2, pode fazer exatamente isso. É o que a empresa chama de modelo “visão-linguagem-ação”, ou um sistema de IA que tem a habilidade não apenas de ver e analisar o mundo ao seu redor, mas de dizer a um robô como se mover. Ele faz isso traduzindo os movimentos do robô em uma série de números - um processo chamado tokenização - e incorporando esses tokens aos mesmos dados de treinamento que o modelo de linguagem.
Eventualmente, assim como o ChatGPT ou o Bard aprendem a adivinhar quais palavras devem vir a seguir em um poema ou um ensaio de história, o RT-2 pode aprender a adivinhar como o braço de um robô deve se mover para pegar uma bola ou jogar uma lata de refrigerante vazia na lixeira de reciclagem. “Em outras palavras, este modelo pode aprender a falar robô”, disse Hausman. Em uma demonstração de uma hora, que ocorreu em uma cozinha do escritório do Google repleta de objetos de uma loja de um dólar, meu colega e eu vimos o RT-2 realizar uma série de tarefas impressionantes.
Uma delas foi seguir com sucesso instruções complexas como “mova o Volkswagen para a bandeira alemã”, o que o RT-2 fez encontrando e agarrando um modelo de ônibus VW e colocando-o em uma mini bandeira alemã a alguns metros de distância. Ele também se mostrou capaz de seguir instruções em idiomas diferentes do inglês e até mesmo fazer conexões abstratas entre conceitos relacionados.
Uma vez, quando eu queria que o RT-2 pegasse uma bola de futebol, eu o instruí a “pegar o Lionel Messi”. O RT-2 acertou na primeira tentativa. O robô não era perfeito. Ele identificou incorretamente o sabor de uma lata de LaCroix colocada na mesa à sua frente. (A lata era de limão; RT-2 adivinhou laranja.) Outra vez, quando perguntaram que tipo de fruta estava em uma mesa, o robô simplesmente respondeu: “Branco.” (Era uma banana.) Um porta-voz do Google disse que o robô usou uma resposta armazenada em cache de uma pergunta de um testador anterior porque seu Wi-Fi havia saído brevemente.
O Google não tem planos imediatos de vender robôs RT-2 ou lançá-los mais amplamente, mas seus pesquisadores acreditam que essas novas máquinas equipadas com linguagem serão eventualmente úteis para mais do que apenas truques de salão. Robôs com modelos de linguagem embutidos poderiam ser colocados em armazéns, usados na medicina ou até mesmo implantados como assistentes domésticos - dobrando roupas, descarregando a máquina de lavar louça ou arrumando a casa, disseram eles. “Isso realmente abre o uso de robôs em ambientes onde as pessoas estão”, disse Vanhoucke. “Em ambientes de escritório, em ambientes domésticos, em todos os lugares onde existem muitas tarefas físicas a serem feitas.”
Claro, é mais difícil mover objetos no mundo físico bagunçado e caótico do que em um laboratório controlado. E dado que os modelos de linguagem de IA frequentemente cometem erros ou inventam respostas sem sentido - o que os pesquisadores chamam de alucinação ou confabulação -, usá-los como cérebros de robôs pode introduzir novos riscos. Mas Goldberg disse que esses riscos ainda são remotos. “Não estamos falando em deixar essas coisas soltas”, disse ele. “Nesses ambientes de laboratório, eles estão apenas tentando mover alguns objetos em uma mesa.”
O Google afirmou que o RT-2 estava equipado com muitos recursos de segurança. Além de um grande botão vermelho na parte de trás de cada robô - que interrompe o robô em suas trilhas quando pressionado -, o sistema usa sensores para evitar esbarrar em pessoas ou objetos. O software de IA integrado no RT-2 tem suas próprias salvaguardas, que podem ser usadas para prevenir que o robô faça qualquer coisa prejudicial. Um exemplo benigno: os robôs do Google podem ser treinados para não pegar recipientes com água neles, porque a água pode danificar seu hardware se derramar.
Se você é o tipo de pessoa que se preocupa com a IA se rebelando - e Hollywood nos deu muitas razões para temer esse cenário, desde o original “O Exterminador do Futuro” até “M3gan” do ano passado -, a ideia de fazer robôs que podem raciocinar, planejar e improvisar provavelmente parece uma ideia terrível para você. Mas, no Google, é o tipo de ideia que os pesquisadores estão celebrando. Depois de anos no deserto, os robôs de hardware estão de volta - e eles têm seus cérebros de chatbot para agradecer.
Os comentários são exclusivos para assinantes do Estadão.