Google revela IA que controla computador e ‘trabalha’ para usuários; veja lista de anúncios

Companhia mostra seus primeiros agentes de IA em ação e anuncia novo modelo de IA

PUBLICIDADE

Foto do author Bruno Romani

Os termos de 2025 no mundo da inteligência artificial (IA) serão “agente de IA” - e isso ficou mais claro nesta quarta, 11, com uma nova leva de anúncios do Google mirando o próximo ano. Entre eles estão a nova versão do Gemini, principal IA da empresa, avanços do Projeto Astra e novos agentes que permitem a realização de tarefas de forma mais autônoma.

Agentes de IA são programas com capacidade de realizar trabalhos mais complexos com pouca ou nenhuma supervisão humana. Eles têm capacidade de interpretar dados e tomar decisões, o que abre as portas para automações sofisticadas, que antes não eram possíveis. É uma espécie de evolução de chatbots espertinhos, como o ChatGPT, que nos aproxima da ideia de assistentes digitais realmente avançados. O Google mostrou alguns experimentos com agentes turbinados pelo novo modelo de IA da companhia.

Google revelou alguns de seus agentes de IA  Foto: Google/Google

PUBLICIDADE

“Hoje, estamos empolgados em lançar nossos próximos modelos criados para a nova era ‘agêntica’”, escreveu Sundar Pichai, CEO do Google, no blog da empresa. O primeiro desses lançamentos é a nova geração do principal modelo de IA da companhia, o Gemini. No anúncio desta quarta, o Gemini ganhou o primeiro modelo de sua nova geração: o Gemini 2.0 Flash - “Flash” é a denominação dada a classe de modelos que apresentam respostas mais rápidas ainda que menos precisas que outros modelos mais robustos da família.

Além de melhorar a performance em relação ao antecessor, o Gemini 1.5 Flash, a nova IA é capaz de gerar respostas com formatos variados e combinados de mídia, como fotos, áudio e vídeos. Ele também consegue acionar nativamente outros programas, como a Busca do Google e outros programas pré-definidos por programadores. O Gemini 2.0 Flash chegará inicialmente para desenvolvedores dentro do Google AI Studio e do Vertex AI. Em janeiro, com a chegada de mais modelos da família 2.0, o Flash será disponibilizado para todos os usuários e produtos do Google. No entanto, usuários da versão web do Gemini poderão experimentar a nova IA.

Publicidade

Assistentes digitais do futuro

O Google também revelou uma série de experimentos com agentes de IA turbinados pelo novo Gemini. Um deles é chamado de Projeto Mariner, uma IA que opera dentro do Chrome “enxergando” tudo o que está na aba ativa do usuário e tomando decisões autônomas.

O agente consegue identificar incluindo pixels e elementos da web, como texto, código, imagens e formulários. Assim, ele é capaz de digitar, rolar ou clicar na página para executar ações. O humano interage com o sistema por meio de uma extensão do Chrome. É possível, por exemplo, pedir ao agente para encontrar números de telefone em sites variados e colocá-los em uma planilha do Google Sheets. Toda conclusão das tarefas, no entanto, exige a aprovação de um humano, um processo conhecido na área como human in the loop.

É um experimento que lembra algo semelhante apresentado pela startup Anthropic, que mostrou um vídeo de um agente que toma o controle do computador do usuário, utilizando mouse e teclado, além de “enxergar” o monitor, para realizar tarefas. Assim como a Anthropic, o Projeto Mariner deve fazer barulho, no entanto, ele ainda está sendo testado e não há data para chegue aos usuários.

Apresentado em maio, o Projeto Astra, um chatbot multimodal incluído no Gemini, ganhou novos recursos. A ferramenta agora é capaz de falar em vários idiomas, inclusive no mesmo diálogo, é capaz de acionar a Busca, o Google Lens e o Google Maps, tem janela de memória de 10 minutos e também teve a latência reduzida. A ferramenta já reconhecia comandos de texto, voz e vídeos, incluindo interações em tempo real - e deu a sensação de nos aproximar do filme ‘Ela’ (2013) no começo do ano. O projeto, no entanto, continua sendo testado longe do público.

Publicidade

O Google também mostrou um protótipo de óculos inteligentes, uma espécie de nova geração do Google Glass, com o Projeto Astra embutido. Sobre o novo aparelho, a companhia diz que vai falar mais sobre ele “em breve”.

Outro projeto revelado pelo Google que lembra experimentos da concorrência é chamado de Deep Research. Com ele, o Gemini usa mais poder computacional para “racionar” por um pedido de informação mais complexo - ele tira proveito da janela de contexto de 1 milhão de tokens (tokens são pedacinhos de palavras) e da capacidade de análise mais aprofundada do modelo.

Dessa maneira, ele faz múltiplas buscas na web à procura de informações e compila todas as informações em um relatório, com fontes originais, que pode ser transferido para o Google Docs. Está disponível a partir desta quarta em inglês tanto no desktop quanto no app.

Dedicar mais poder computacional na busca de uma resposta, em vez de apenas aumentar os dados de treinamento de um modelo, é uma tendência na indústria. Em setembro, a OpenAI apresentou uma novo modelo de IA, batizada de OpenAI o1. Ao contrário de outros LLMs, que tentam responder imediatamente a um comando, a nova IA aborda os problemas em etapas, de forma parecida com aquilo que humanos fazem quando se deparam com tarefas complexas. O sistema avalia cada estágio na construção da resposta, o que permite a correção de erros e adoção de novas estratégias - um processo chamado de cadeia de pensamento (ou chain of thought).

Publicidade

A guinada na indústria é uma indicação de uma crescente preocupação entre especialistas: a de que grandes modelos de linguagem (LLM) tenham atingido um limite de eficiência mesmo com o crescimento dos dados utilizados.

Novo modelo de IA nas buscas

Por fim, o Google vai acrescentar o novo modelo com maior capacidade de raciocínio ao AI Overviews, recurso que usa IA generativa para resumir conteúdos e oferecer tópicos de respostas diretamente nas buscas do Google. A ferramenta pode resumir conteúdos e oferecer tópicos de respostas a partir de uma busca do usuário no site. Com ele, não é necessário clicar em nenhum link ou ser redirecionado para nenhum outro portal para obter as informações desejadas.

Com a aplicação, o AI poderá realizar equações matemáticas, buscas multimodais, buscas que exigem muitos passos, além de produção de código de computador. Os testes começam de forma limitada nesta semana e devem ser implementadas de maneira ampla ao longo do ano que vem.

A novidade parece espelhar uma afirmação dada por Pichai na semana passada. Ele disse que a ferramenta de buscas da gigante deve mudar “profundamente” em 2025. “Eu acho que vocês vão se surpreender até mesmo no início de 2025 com o tipo de coisas novas que a busca pode fazer comparado ao que é hoje”, disse ele no DealBook Summit do New York Times. “Quando eu olho para o que está por vir, vejo que estamos nos estágios mais iniciais de uma mudança profunda”.

Publicidade

Comentários

Os comentários são exclusivos para assinantes do Estadão.