ChatGPT ganha novo ‘cérebro’ e se aproxima do filme ‘Ela’; conheça o GPT-4o

OpenAI torna chatbot mais natural e inteligente com nova atualização

PUBLICIDADE

Foto do author Bruno Romani
Foto do author Guilherme Guerra
Foto do author Alice Labate
Atualização:

A OpenAI revelou nesta segunda-feira, 13, o novo cérebro do ChatGPT: o GPT-4o. Em uma demonstração que aproxima sua ferramenta da inteligência artificial sabe-tudo do filme Ela (Spike Jonze, 2013), a companhia de inteligência artificial ampliou a capacidade de processamento de texto, de compreensão de imagens e de conversas com voz para funcionar, simultaneamente, em tempo real.

PUBLICIDADE

Segundo a companhia, o GPT-4o revelado nesta segunda-feira é superior ao atual GPT-4 Turbo. É duas vezes mais rápido no processamento de respostas, é 50% mais barato para desenvolvedores (pois exige menos tokens) e tem capacidade de mensagens cinco vezes maior. Custa US$ 5 a cada 1 milhão de tokens (tokens são pedacinhos de palavras) como dados de entrada (input) e US$ 10 como dados de saída (output). Anteriormente, no GPT-4 Turbo, esses valores eram US$ 10 (input) e US$ 30 (output) a cada milhão de tokens.

Todos os usuários da OpenAI, incluindo não assinantes do plano ChatGPT Plus, poderão acessar gratuitamente a nova IA nas próximas semanas, diz a startup americana.

Especulava-se que a OpenAI poderia apresentar o GPT-5, ou até um site de buscas na internet para competir com o Google. No entanto, as melhorias no GPT-4 prometem elevar o ChatGPT a um novo nível de uso. A executiva Mira Murati, chefe de tecnologia da OpenAI, realizou demonstrações sobre a capacidade de multimodalidade do ChatGPT.

O termo significa que o chatbot é capaz de aceitar comandos por texto, imagem, vídeo ou áudio e, por sua vez, gerar uma resposta em qualquer um desses formatos. É um avanço em relação às IAs atuais, que geralmente recebem comandos por texto e, a partir daí, geram o conteúdo no formato escolhido.

Publicidade

É a primeira vez que a OpenAI lança um modelo de IA que é nativamente multimodal, uma tendência que começa a se consolidar na área - o Gemini, do Google, também é o primeiro modelo multimodal da companhia. É a primeira vez também que uma IA consegue fazer reconhecimento de objetos por imagens em tempo real. Anteriormente, era necessário subir fotos no serviço.

As demonstrações da OpenAI apontam para várias utilidades do ChatGPT-4o. Por exemplo, por meio de aplicativo no celular, o modelo de IA consegue auxiliar na resoluções de equações escritas em folha de papel (e não mais em interface de computador), graças ao acesso à câmera do smartphone, que funciona como o “olho” da IA.

Ainda, o novo ChatGPT pode ser o juíz de um jogo de pedra-papel-tesoura, decidindo quem ganhou ou perdeu com base na leitura do ambiente. O chatbot também demonstrou ser capaz de ler emoções humanas, diferenciando felicidade de tristeza na expressão facial de alguém, algo inédito até aqui.

Além disso, o ChatGPT consegue manter conversas como um assistende de voz pessoal, com uma voz bastante natural e pouco robótica. A OpenAI afirma que o novo sistema oferece respostas por áudio em 320 milisegundos em média, similar à resposta humana numa conversa.

Na demo desta segunda-feira, o robô consegue atender a solicitações por voz ao ser acionado com o comando “Ei, ChatGPT”. Um dos principais casos oferecidos pela startup é traduzir diálogos por voz em tempo real, como um intérprete digital.

Publicidade

ChatGPT, da OpenAI, ganha versão mais inteligente capaz de ler imagens, vídeos e áudios do mundo real Foto: Dado Ruvic/REUTERS

Murati anunciou que o GPT-4o também estará disponível como API, permitindo que desenvolvedores e empresas, sob uma assinatura, consigam “puxar” o ChatGPT para seus serviços e integrar o modelo de inteligência artificial em diferentes produtos. Além disso, a companhia anunciou melhorias para outros 50 idiomas.

Por fim, continuando a expansão do serviço, a OpenAI anunciou um novo aplicativo do ChatGPT para Mac, computador da Apple. A empresa afirma que, com isso, vai ser mais fácil integrar o chatbot a tarefas de produtividade do usuário, graças a um comando de teclado para acionar o robô. Ao final do ano, um app para Windows, da Microsoft, deve ser lançado.

Sam Altman, CEO da OpenAI, comentou as novidades do evento desta segunda-feira no Twitter.

A transmissão acontece a um dia de o Google realizar o seu principal evento do ano, o Google I/O, que também deve trazer novidades importantes na área. Especialistas esperam que a companhia demonstre a capacidade da IA Gemini como assistente pessoal, primeira IA do mercado a adotar a multimodalidade.

Golpe para Siri e Alexa

O evento da OpenAI mostrou como funcionam as capacidades de multimodalidade do ChatGPT-4o. O modelo consegue ser um assistente de voz, similar à Alexa (da Amazon) e à Siri (da Apple), e consegue ler imagens do mundo real a partir da câmera de um smartphone, como o Google já implementou no Android. A principal diferença para os rivais é que se trata de um único modelo capaz de realizar isso tudo.

Publicidade

Na demonstração desta segunda-feira, a IA consegue contar histórias com diferentes entonações na voz, como algo emocionado ou totalmente robótico. Além disso, com a câmera do celular, a IA ajuda a resolver equações matemáticas de primeiro grau escritas em uma folha de papel ou, ainda, atuar como um tradutor em tempo real de uma conversa.

Segundo a OpenAI, essas funções vão chegar para os usuários nas próximas semanas.

Reveja a apresentação abaixo.

Comentários

Os comentários são exclusivos para assinantes do Estadão.