Jornalista, escritor e palestrante. Escreve às quintas

Opinião|Google quer enfrentar ChatGPT com nova IA, mas sucesso é incerto; leia análise


A forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo

Por Pedro Doria
Atualização:

O Google lançou nesta semana o Gemini, sua resposta ao GPT-4. As ações na bolsa subiram, muitas linhas de jornalismo foram produzidas — e ninguém viu o bicho ainda. Gemini não é um modelo de inteligência artificial (IA) — é uma família de três modelos. O primeiro já começará a chegar a alguns celulares. Gemini Nano, pequenino, menos poderoso. Mas que pode rodar no bolso da gente. Aí tem Gemini Pro e Gemini Ultra — este último só estará à disposição para uso, ainda não está claro exatamente como, no ano que vem. É o Ultra que, segundo testes feitos pelo Google, bate a última versão do GPT.

Segundo testes do Google. E não dá para ignorar que espera-se o lançamento do GPT-5 para os próximos meses.

O problema, porém, não é tanto os testes do Google. É difícil medir o que faz de um modelo de IA melhor do que o outro. O que a turma do Google explica é que dois pontos diferenciam Gemini do GPT. O primeiro é que Gemini foi desenhado desde a base para ser multimodal. Isto quer dizer que ele não lida apenas com texto, lida também com imagens, com vídeo e com áudio. Ou seja, Gemini é capaz de enxergar ou ouvir um arquivo sobre o qual faremos perguntas.

continua após a publicidade
Gemini foi desenvolvido pela DeepMind, empresa subsidiária do Google  Foto: Jeff Chiu / AP

Ocorre que, embora não tenha sido desenhado com este objetivo, o ChatGPT ganhou a capacidade de enxergar e produzir imagens estáticas em novembro. Talvez a versão do Google faça isso melhor, mas não é como se o espaço não estivesse já trilhado.

A outra característica pode ser mais importante. Gemini Ultra seria melhor em sua capacidade de fazer raciocínios lógicos e estruturar planejamentos. Se for realmente melhor do que o GPT nisto, podemos estar próximos de agentes. E todo mundo quer construir agentes. É a capacidade de se dar ao computador a ordem de fazer compras supermercado ou de planejar as férias.

continua após a publicidade

Um agente inteligente seria capaz de acompanhar o preço das passagens aéreas e esperar o momento mais propício para dar o bote e comprar. Fazer o mesmo com o hotel ou sugerir um Airbnb que é um charme só.

Ainda estamos inventando para que estas ferramentas servem. A OpenAI, quando lançou em dezembro do ano passado o ChatGPT, não esperava que fosse ter o sucesso que tem. Mas muita gente encontrou, ali, uma ferramenta particularmente útil para produzir resumos, para organizar informações, construir textos do cotidiano. Principalmente, para ajudar num brainstorming.

O ChatGPT é útil não apenas porque o GPT-4 que o alimenta é um modelo de inteligência artificial poderoso como nunca vimos na lida com texto. É útil, também, porque conversamos com ele por meio de um chat. A sacada de que ele funciona melhor num diálogo do que operando de outra forma é talvez mais importante do que todo o resto.

continua após a publicidade

Assim, a forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo. Tudo indica que 2024 será um ano tão cheio de surpresas no mundo da IA quanto foi 2023.

O Google lançou nesta semana o Gemini, sua resposta ao GPT-4. As ações na bolsa subiram, muitas linhas de jornalismo foram produzidas — e ninguém viu o bicho ainda. Gemini não é um modelo de inteligência artificial (IA) — é uma família de três modelos. O primeiro já começará a chegar a alguns celulares. Gemini Nano, pequenino, menos poderoso. Mas que pode rodar no bolso da gente. Aí tem Gemini Pro e Gemini Ultra — este último só estará à disposição para uso, ainda não está claro exatamente como, no ano que vem. É o Ultra que, segundo testes feitos pelo Google, bate a última versão do GPT.

Segundo testes do Google. E não dá para ignorar que espera-se o lançamento do GPT-5 para os próximos meses.

O problema, porém, não é tanto os testes do Google. É difícil medir o que faz de um modelo de IA melhor do que o outro. O que a turma do Google explica é que dois pontos diferenciam Gemini do GPT. O primeiro é que Gemini foi desenhado desde a base para ser multimodal. Isto quer dizer que ele não lida apenas com texto, lida também com imagens, com vídeo e com áudio. Ou seja, Gemini é capaz de enxergar ou ouvir um arquivo sobre o qual faremos perguntas.

Gemini foi desenvolvido pela DeepMind, empresa subsidiária do Google  Foto: Jeff Chiu / AP

Ocorre que, embora não tenha sido desenhado com este objetivo, o ChatGPT ganhou a capacidade de enxergar e produzir imagens estáticas em novembro. Talvez a versão do Google faça isso melhor, mas não é como se o espaço não estivesse já trilhado.

A outra característica pode ser mais importante. Gemini Ultra seria melhor em sua capacidade de fazer raciocínios lógicos e estruturar planejamentos. Se for realmente melhor do que o GPT nisto, podemos estar próximos de agentes. E todo mundo quer construir agentes. É a capacidade de se dar ao computador a ordem de fazer compras supermercado ou de planejar as férias.

Um agente inteligente seria capaz de acompanhar o preço das passagens aéreas e esperar o momento mais propício para dar o bote e comprar. Fazer o mesmo com o hotel ou sugerir um Airbnb que é um charme só.

Ainda estamos inventando para que estas ferramentas servem. A OpenAI, quando lançou em dezembro do ano passado o ChatGPT, não esperava que fosse ter o sucesso que tem. Mas muita gente encontrou, ali, uma ferramenta particularmente útil para produzir resumos, para organizar informações, construir textos do cotidiano. Principalmente, para ajudar num brainstorming.

O ChatGPT é útil não apenas porque o GPT-4 que o alimenta é um modelo de inteligência artificial poderoso como nunca vimos na lida com texto. É útil, também, porque conversamos com ele por meio de um chat. A sacada de que ele funciona melhor num diálogo do que operando de outra forma é talvez mais importante do que todo o resto.

Assim, a forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo. Tudo indica que 2024 será um ano tão cheio de surpresas no mundo da IA quanto foi 2023.

O Google lançou nesta semana o Gemini, sua resposta ao GPT-4. As ações na bolsa subiram, muitas linhas de jornalismo foram produzidas — e ninguém viu o bicho ainda. Gemini não é um modelo de inteligência artificial (IA) — é uma família de três modelos. O primeiro já começará a chegar a alguns celulares. Gemini Nano, pequenino, menos poderoso. Mas que pode rodar no bolso da gente. Aí tem Gemini Pro e Gemini Ultra — este último só estará à disposição para uso, ainda não está claro exatamente como, no ano que vem. É o Ultra que, segundo testes feitos pelo Google, bate a última versão do GPT.

Segundo testes do Google. E não dá para ignorar que espera-se o lançamento do GPT-5 para os próximos meses.

O problema, porém, não é tanto os testes do Google. É difícil medir o que faz de um modelo de IA melhor do que o outro. O que a turma do Google explica é que dois pontos diferenciam Gemini do GPT. O primeiro é que Gemini foi desenhado desde a base para ser multimodal. Isto quer dizer que ele não lida apenas com texto, lida também com imagens, com vídeo e com áudio. Ou seja, Gemini é capaz de enxergar ou ouvir um arquivo sobre o qual faremos perguntas.

Gemini foi desenvolvido pela DeepMind, empresa subsidiária do Google  Foto: Jeff Chiu / AP

Ocorre que, embora não tenha sido desenhado com este objetivo, o ChatGPT ganhou a capacidade de enxergar e produzir imagens estáticas em novembro. Talvez a versão do Google faça isso melhor, mas não é como se o espaço não estivesse já trilhado.

A outra característica pode ser mais importante. Gemini Ultra seria melhor em sua capacidade de fazer raciocínios lógicos e estruturar planejamentos. Se for realmente melhor do que o GPT nisto, podemos estar próximos de agentes. E todo mundo quer construir agentes. É a capacidade de se dar ao computador a ordem de fazer compras supermercado ou de planejar as férias.

Um agente inteligente seria capaz de acompanhar o preço das passagens aéreas e esperar o momento mais propício para dar o bote e comprar. Fazer o mesmo com o hotel ou sugerir um Airbnb que é um charme só.

Ainda estamos inventando para que estas ferramentas servem. A OpenAI, quando lançou em dezembro do ano passado o ChatGPT, não esperava que fosse ter o sucesso que tem. Mas muita gente encontrou, ali, uma ferramenta particularmente útil para produzir resumos, para organizar informações, construir textos do cotidiano. Principalmente, para ajudar num brainstorming.

O ChatGPT é útil não apenas porque o GPT-4 que o alimenta é um modelo de inteligência artificial poderoso como nunca vimos na lida com texto. É útil, também, porque conversamos com ele por meio de um chat. A sacada de que ele funciona melhor num diálogo do que operando de outra forma é talvez mais importante do que todo o resto.

Assim, a forma que os produtos alimentados pelo Gemini tomarem é tão importante quanto o poder do modelo. Tudo indica que 2024 será um ano tão cheio de surpresas no mundo da IA quanto foi 2023.

Opinião por Pedro Doria

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.