O Google lançou nesta semana o Gemini, sua resposta ao GPT-4. As ações na bolsa subiram, muitas linhas de jornalismo foram produzidas — e ninguém viu o bicho ainda. Gemini não é um modelo de inteligência artificial (IA) — é uma família de três modelos. O primeiro já começará a chegar a alguns celulares. Gemini Nano, pequenino, menos poderoso. Mas que pode rodar no bolso da gente. Aí tem Gemini Pro e Gemini Ultra — este último só estará à disposição para uso, ainda não está claro exatamente como, no ano que vem. É o Ultra que, segundo testes feitos pelo Google, bate a última versão do GPT.
Segundo testes do Google. E não dá para ignorar que espera-se o lançamento do GPT-5 para os próximos meses.
O problema, porém, não é tanto os testes do Google. É difícil medir o que faz de um modelo de IA melhor do que o outro. O que a turma do Google explica é que dois pontos diferenciam Gemini do GPT. O primeiro é que Gemini foi desenhado desde a base para ser multimodal. Isto quer dizer que ele não lida apenas com texto, lida também com imagens, com vídeo e com áudio. Ou seja, Gemini é capaz de enxergar ou ouvir um arquivo sobre o qual faremos perguntas.
Ocorre que, embora não tenha sido desenhado com este objetivo, o ChatGPT ganhou a capacidade de enxergar e produzir imagens estáticas em novembro. Talvez a versão do Google faça isso melhor, mas não é como se o espaço não estivesse já trilhado.
A outra característica pode ser mais importante. Gemini Ultra seria melhor em sua capacidade de fazer raciocínios lógicos e estruturar planejamentos. Se for realmente melhor do que o GPT nisto, podemos estar próximos de agentes. E todo mundo quer construir agentes. É a capacidade de se dar ao computador a ordem de fazer compras supermercado ou de planejar as férias.
Um agente inteligente seria capaz de acompanhar o preço das passagens aéreas e esperar o momento mais propício para dar o bote e comprar. Fazer o mesmo com o hotel ou sugerir um Airbnb que é um charme só.
Ainda estamos inventando para que estas ferramentas servem. A OpenAI, quando lançou em dezembro do ano passado o ChatGPT, não esperava que fosse ter o sucesso que tem. Mas muita gente encontrou, ali, uma ferramenta particularmente útil para produzir resumos, para organizar informações, construir textos do cotidiano. Principalmente, para ajudar num brainstorming.
O ChatGPT é útil não apenas porque o GPT-4 que o alimenta é um modelo de inteligência artificial poderoso como nunca vimos na lida com texto. É útil, também, porque conversamos com ele por meio de um chat. A sacada de que ele funciona melhor num diálogo do que operando de outra forma é talvez mais importante do que todo o resto.
Assim, a forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo. Tudo indica que 2024 será um ano tão cheio de surpresas no mundo da IA quanto foi 2023.