Foto do(a) coluna

Jornalista, escritor e palestrante. Escreve às quintas

Opinião|Google quer enfrentar ChatGPT com nova IA, mas sucesso é incerto; leia análise


A forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo

Por Pedro Doria
Atualização:

O Google lançou nesta semana o Gemini, sua resposta ao GPT-4. As ações na bolsa subiram, muitas linhas de jornalismo foram produzidas — e ninguém viu o bicho ainda. Gemini não é um modelo de inteligência artificial (IA) — é uma família de três modelos. O primeiro já começará a chegar a alguns celulares. Gemini Nano, pequenino, menos poderoso. Mas que pode rodar no bolso da gente. Aí tem Gemini Pro e Gemini Ultra — este último só estará à disposição para uso, ainda não está claro exatamente como, no ano que vem. É o Ultra que, segundo testes feitos pelo Google, bate a última versão do GPT.

Segundo testes do Google. E não dá para ignorar que espera-se o lançamento do GPT-5 para os próximos meses.

O problema, porém, não é tanto os testes do Google. É difícil medir o que faz de um modelo de IA melhor do que o outro. O que a turma do Google explica é que dois pontos diferenciam Gemini do GPT. O primeiro é que Gemini foi desenhado desde a base para ser multimodal. Isto quer dizer que ele não lida apenas com texto, lida também com imagens, com vídeo e com áudio. Ou seja, Gemini é capaz de enxergar ou ouvir um arquivo sobre o qual faremos perguntas.

continua após a publicidade
Gemini foi desenvolvido pela DeepMind, empresa subsidiária do Google
Gemini foi desenvolvido pela DeepMind, empresa subsidiária do Google  Foto: Jeff Chiu / AP

Ocorre que, embora não tenha sido desenhado com este objetivo, o ChatGPT ganhou a capacidade de enxergar e produzir imagens estáticas em novembro. Talvez a versão do Google faça isso melhor, mas não é como se o espaço não estivesse já trilhado.

A outra característica pode ser mais importante. Gemini Ultra seria melhor em sua capacidade de fazer raciocínios lógicos e estruturar planejamentos. Se for realmente melhor do que o GPT nisto, podemos estar próximos de agentes. E todo mundo quer construir agentes. É a capacidade de se dar ao computador a ordem de fazer compras supermercado ou de planejar as férias.

continua após a publicidade

Um agente inteligente seria capaz de acompanhar o preço das passagens aéreas e esperar o momento mais propício para dar o bote e comprar. Fazer o mesmo com o hotel ou sugerir um Airbnb que é um charme só.

Ainda estamos inventando para que estas ferramentas servem. A OpenAI, quando lançou em dezembro do ano passado o ChatGPT, não esperava que fosse ter o sucesso que tem. Mas muita gente encontrou, ali, uma ferramenta particularmente útil para produzir resumos, para organizar informações, construir textos do cotidiano. Principalmente, para ajudar num brainstorming.

O ChatGPT é útil não apenas porque o GPT-4 que o alimenta é um modelo de inteligência artificial poderoso como nunca vimos na lida com texto. É útil, também, porque conversamos com ele por meio de um chat. A sacada de que ele funciona melhor num diálogo do que operando de outra forma é talvez mais importante do que todo o resto.

continua após a publicidade

Assim, a forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo. Tudo indica que 2024 será um ano tão cheio de surpresas no mundo da IA quanto foi 2023.

O Google lançou nesta semana o Gemini, sua resposta ao GPT-4. As ações na bolsa subiram, muitas linhas de jornalismo foram produzidas — e ninguém viu o bicho ainda. Gemini não é um modelo de inteligência artificial (IA) — é uma família de três modelos. O primeiro já começará a chegar a alguns celulares. Gemini Nano, pequenino, menos poderoso. Mas que pode rodar no bolso da gente. Aí tem Gemini Pro e Gemini Ultra — este último só estará à disposição para uso, ainda não está claro exatamente como, no ano que vem. É o Ultra que, segundo testes feitos pelo Google, bate a última versão do GPT.

Segundo testes do Google. E não dá para ignorar que espera-se o lançamento do GPT-5 para os próximos meses.

O problema, porém, não é tanto os testes do Google. É difícil medir o que faz de um modelo de IA melhor do que o outro. O que a turma do Google explica é que dois pontos diferenciam Gemini do GPT. O primeiro é que Gemini foi desenhado desde a base para ser multimodal. Isto quer dizer que ele não lida apenas com texto, lida também com imagens, com vídeo e com áudio. Ou seja, Gemini é capaz de enxergar ou ouvir um arquivo sobre o qual faremos perguntas.

Gemini foi desenvolvido pela DeepMind, empresa subsidiária do Google  Foto: Jeff Chiu / AP

Ocorre que, embora não tenha sido desenhado com este objetivo, o ChatGPT ganhou a capacidade de enxergar e produzir imagens estáticas em novembro. Talvez a versão do Google faça isso melhor, mas não é como se o espaço não estivesse já trilhado.

A outra característica pode ser mais importante. Gemini Ultra seria melhor em sua capacidade de fazer raciocínios lógicos e estruturar planejamentos. Se for realmente melhor do que o GPT nisto, podemos estar próximos de agentes. E todo mundo quer construir agentes. É a capacidade de se dar ao computador a ordem de fazer compras supermercado ou de planejar as férias.

Um agente inteligente seria capaz de acompanhar o preço das passagens aéreas e esperar o momento mais propício para dar o bote e comprar. Fazer o mesmo com o hotel ou sugerir um Airbnb que é um charme só.

Ainda estamos inventando para que estas ferramentas servem. A OpenAI, quando lançou em dezembro do ano passado o ChatGPT, não esperava que fosse ter o sucesso que tem. Mas muita gente encontrou, ali, uma ferramenta particularmente útil para produzir resumos, para organizar informações, construir textos do cotidiano. Principalmente, para ajudar num brainstorming.

O ChatGPT é útil não apenas porque o GPT-4 que o alimenta é um modelo de inteligência artificial poderoso como nunca vimos na lida com texto. É útil, também, porque conversamos com ele por meio de um chat. A sacada de que ele funciona melhor num diálogo do que operando de outra forma é talvez mais importante do que todo o resto.

Assim, a forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo. Tudo indica que 2024 será um ano tão cheio de surpresas no mundo da IA quanto foi 2023.

O Google lançou nesta semana o Gemini, sua resposta ao GPT-4. As ações na bolsa subiram, muitas linhas de jornalismo foram produzidas — e ninguém viu o bicho ainda. Gemini não é um modelo de inteligência artificial (IA) — é uma família de três modelos. O primeiro já começará a chegar a alguns celulares. Gemini Nano, pequenino, menos poderoso. Mas que pode rodar no bolso da gente. Aí tem Gemini Pro e Gemini Ultra — este último só estará à disposição para uso, ainda não está claro exatamente como, no ano que vem. É o Ultra que, segundo testes feitos pelo Google, bate a última versão do GPT.

Segundo testes do Google. E não dá para ignorar que espera-se o lançamento do GPT-5 para os próximos meses.

O problema, porém, não é tanto os testes do Google. É difícil medir o que faz de um modelo de IA melhor do que o outro. O que a turma do Google explica é que dois pontos diferenciam Gemini do GPT. O primeiro é que Gemini foi desenhado desde a base para ser multimodal. Isto quer dizer que ele não lida apenas com texto, lida também com imagens, com vídeo e com áudio. Ou seja, Gemini é capaz de enxergar ou ouvir um arquivo sobre o qual faremos perguntas.

Gemini foi desenvolvido pela DeepMind, empresa subsidiária do Google  Foto: Jeff Chiu / AP

Ocorre que, embora não tenha sido desenhado com este objetivo, o ChatGPT ganhou a capacidade de enxergar e produzir imagens estáticas em novembro. Talvez a versão do Google faça isso melhor, mas não é como se o espaço não estivesse já trilhado.

A outra característica pode ser mais importante. Gemini Ultra seria melhor em sua capacidade de fazer raciocínios lógicos e estruturar planejamentos. Se for realmente melhor do que o GPT nisto, podemos estar próximos de agentes. E todo mundo quer construir agentes. É a capacidade de se dar ao computador a ordem de fazer compras supermercado ou de planejar as férias.

Um agente inteligente seria capaz de acompanhar o preço das passagens aéreas e esperar o momento mais propício para dar o bote e comprar. Fazer o mesmo com o hotel ou sugerir um Airbnb que é um charme só.

Ainda estamos inventando para que estas ferramentas servem. A OpenAI, quando lançou em dezembro do ano passado o ChatGPT, não esperava que fosse ter o sucesso que tem. Mas muita gente encontrou, ali, uma ferramenta particularmente útil para produzir resumos, para organizar informações, construir textos do cotidiano. Principalmente, para ajudar num brainstorming.

O ChatGPT é útil não apenas porque o GPT-4 que o alimenta é um modelo de inteligência artificial poderoso como nunca vimos na lida com texto. É útil, também, porque conversamos com ele por meio de um chat. A sacada de que ele funciona melhor num diálogo do que operando de outra forma é talvez mais importante do que todo o resto.

Assim, a forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo. Tudo indica que 2024 será um ano tão cheio de surpresas no mundo da IA quanto foi 2023.

Loading
Opinião por Pedro Doria