Empresas como a OpenAI e a Midjourney criam chatbots, geradores de imagens e outras ferramentas de inteligência artificial (IA) que operam no mundo digital. Agora, uma startup fundada por três ex-pesquisadores da OpenAI está usando os métodos de desenvolvimento de tecnologia por trás dos chatbots para criar tecnologia de capaz de navegar no mundo físico.
A Covariant, empresa de robótica com sede em Emeryville, Califórnia, EUA, está criando maneiras de os robôs pegarem, moverem e classificarem itens à medida que são transportados por armazéns e centros de distribuição. Seu objetivo é ajudar os robôs a entender o que está acontecendo ao seu redor e decidir o que devem fazer em seguida.
A tecnologia também proporciona aos robôs um amplo entendimento do idioma inglês, permitindo que as pessoas conversem com eles como se estivessem conversando com o ChatGPT.
A tecnologia, ainda em desenvolvimento, não é perfeita. Mas é um sinal claro de que os sistemas de inteligência artificial que impulsionam os chatbots online e os geradores de imagens também impulsionarão as máquinas nos armazéns, nas estradas e nas residências.
Assim como os chatbots e os geradores de imagens, essa tecnologia robótica aprende suas habilidades analisando enormes quantidades de dados digitais. Isso significa que os engenheiros podem aprimorar a tecnologia alimentando-a com mais e mais dados.
A Covariant, apoiada por US$ 222 milhões em financiamento, não constrói robôs. Ela cria o software que alimenta os robôs. A empresa pretende implantar sua nova tecnologia com robôs de armazém, fornecendo um roteiro para que outros façam o mesmo em fábricas e talvez até mesmo em estradas com carros sem motorista.
Os sistemas de IA que acionam os chatbots e os geradores de imagens são chamados de redes neurais, nome dado à rede de neurônios do cérebro.
Leia também
Ao identificar padrões em grandes quantidades de dados, esses sistemas podem aprender a reconhecer palavras, sons e imagens - ou até mesmo gerá-los por conta própria. Foi assim que a OpenAI criou o ChatGPT, dando a ele a capacidade de responder instantaneamente a perguntas, escrever trabalhos e gerar programas de computador. Ele aprendeu essas habilidades com textos coletados na internet.
Atualmente, as empresas estão criando sistemas que podem aprender com diferentes tipos de dados ao mesmo tempo. Ao analisar uma coleção de fotos e as legendas que descrevem essas fotos, por exemplo, um sistema pode compreender as relações entre as duas. Ele pode aprender que a palavra “banana” descreve uma fruta amarela e curva.
A OpenAI empregou esse sistema para criar o Sora, seu novo gerador de vídeo. Ao analisar milhares de vídeos legendados, o sistema aprendeu a gerar vídeos quando recebe uma breve descrição de uma cena, como “um mundo de papercraft maravilhosamente renderizado de um recife de coral, repleto de peixes coloridos e criaturas marinhas”.
A Covariant, fundada por Pieter Abbeel, professor da Universidade da Califórnia, em Berkeley, e três de seus ex-alunos, Peter Chen, Rocky Duan e Tianhao Zhang, utilizou técnicas semelhantes na criação de um sistema que aciona robôs de armazém.
A empresa ajuda a operar robôs de classificação em armazéns em todo o mundo. Ela passou anos reunindo dados - de câmeras e outros sensores - que mostram como esses robôs operam.
“Ela ingere todos os tipos de dados importantes para os robôs, que podem ajudá-los a entender o mundo físico e interagir com ele”, disse Chen.
Ao combinar esses dados com as enormes quantidades de texto usadas para treinar chatbots como o ChatGPT, a empresa criou uma tecnologia de IA que dá a seus robôs uma compreensão muito mais ampla do mundo ao seu redor.
Depois de identificar padrões nessa mistura de imagens, dados sensoriais e texto, a tecnologia dá ao robô a capacidade de lidar com situações inesperadas no mundo físico. O robô sabe como pegar uma banana, mesmo que nunca tenha visto uma banana antes.
Ele também pode responder em inglês simples, como um chatbot. Se você disser a ele para “pegar uma banana”, ele saberá o que isso significa. Se você disser “pegue uma fruta amarela”, ele também entenderá.
Ele pode até gerar vídeos que preveem o que provavelmente acontecerá quando ele tentar pegar uma banana. Esses vídeos não têm utilidade prática em um armazém, mas mostram a compreensão do robô sobre o que está ao seu redor.
“Se ele puder prever os próximos quadros em um vídeo, poderá identificar a estratégia correta a ser seguida”, disse Abbeel.
A tecnologia, chamada RFM, sigla em inglês para modelo básico de robótica, comete erros, assim como os chatbots. Embora muitas vezes ela entenda o que as pessoas pedem, há sempre uma chance de não entender. De vez em quando, ele deixa cair objetos.
Gary Marcus, empresário de IA e professor emérito de psicologia e ciência neural da Universidade de Nova York, disse que a tecnologia poderia ser útil em armazéns e outras situações em que erros são aceitáveis. Mas ele disse que seria mais difícil e arriscado implantá-la em fábricas e outras situações potencialmente perigosas.
“Tudo se resume ao custo do erro”, disse ele. “Se você tem um robô de 70 kg que pode fazer algo prejudicial, esse custo pode ser alto.”
À medida que as empresas treinam esse tipo de sistema em coleções de dados cada vez maiores e mais variadas, os pesquisadores acreditam que ele se aperfeiçoará rapidamente.
Isso é muito diferente da forma como os robôs operavam no passado. Normalmente, os engenheiros programavam os robôs para executar o mesmo movimento preciso repetidas vezes, como pegar uma caixa de um determinado tamanho ou prender um rebite em um ponto específico do para-choque traseiro de um carro. Mas os robôs não conseguiam lidar com situações inesperadas ou aleatórias.
Ao aprender com dados digitais - centenas de milhares de exemplos do que acontece no mundo físico - os robôs podem começar a lidar com o inesperado. E quando esses exemplos são combinados com a linguagem, os robôs também podem responder a sugestões de texto e voz, como um chatbot faria.
Isso significa que, assim como os chatbots e os geradores de imagens, os robôs se tornarão mais ágeis.
“O que está nos dados digitais pode ser transferido para o mundo real”, disse Chen.
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.
Os comentários são exclusivos para assinantes do Estadão.