A OpenAI revelou nesta segunda-feira, 13, o novo cérebro do ChatGPT: o GPT-4o. Em uma demonstração que aproxima sua ferramenta da inteligência artificial sabe-tudo do filme Ela (Spike Jonze, 2013), a companhia de inteligência artificial ampliou a capacidade de processamento de texto, de compreensão de imagens e de conversas com voz para funcionar, simultaneamente, em tempo real.
Segundo a companhia, o GPT-4o revelado nesta segunda-feira é superior ao atual GPT-4 Turbo. É duas vezes mais rápido no processamento de respostas, é 50% mais barato para desenvolvedores (pois exige menos tokens) e tem capacidade de mensagens cinco vezes maior. Custa US$ 5 a cada 1 milhão de tokens (tokens são pedacinhos de palavras) como dados de entrada (input) e US$ 10 como dados de saída (output). Anteriormente, no GPT-4 Turbo, esses valores eram US$ 10 (input) e US$ 30 (output) a cada milhão de tokens.
Todos os usuários da OpenAI, incluindo não assinantes do plano ChatGPT Plus, poderão acessar gratuitamente a nova IA nas próximas semanas, diz a startup americana.
Especulava-se que a OpenAI poderia apresentar o GPT-5, ou até um site de buscas na internet para competir com o Google. No entanto, as melhorias no GPT-4 prometem elevar o ChatGPT a um novo nível de uso. A executiva Mira Murati, chefe de tecnologia da OpenAI, realizou demonstrações sobre a capacidade de multimodalidade do ChatGPT.
O termo significa que o chatbot é capaz de aceitar comandos por texto, imagem, vídeo ou áudio e, por sua vez, gerar uma resposta em qualquer um desses formatos. É um avanço em relação às IAs atuais, que geralmente recebem comandos por texto e, a partir daí, geram o conteúdo no formato escolhido.
É a primeira vez que a OpenAI lança um modelo de IA que é nativamente multimodal, uma tendência que começa a se consolidar na área - o Gemini, do Google, também é o primeiro modelo multimodal da companhia. É a primeira vez também que uma IA consegue fazer reconhecimento de objetos por imagens em tempo real. Anteriormente, era necessário subir fotos no serviço.
Leia Também:
As demonstrações da OpenAI apontam para várias utilidades do ChatGPT-4o. Por exemplo, por meio de aplicativo no celular, o modelo de IA consegue auxiliar na resoluções de equações escritas em folha de papel (e não mais em interface de computador), graças ao acesso à câmera do smartphone, que funciona como o “olho” da IA.
Ainda, o novo ChatGPT pode ser o juíz de um jogo de pedra-papel-tesoura, decidindo quem ganhou ou perdeu com base na leitura do ambiente. O chatbot também demonstrou ser capaz de ler emoções humanas, diferenciando felicidade de tristeza na expressão facial de alguém, algo inédito até aqui.
Além disso, o ChatGPT consegue manter conversas como um assistende de voz pessoal, com uma voz bastante natural e pouco robótica. A OpenAI afirma que o novo sistema oferece respostas por áudio em 320 milisegundos em média, similar à resposta humana numa conversa.
Na demo desta segunda-feira, o robô consegue atender a solicitações por voz ao ser acionado com o comando “Ei, ChatGPT”. Um dos principais casos oferecidos pela startup é traduzir diálogos por voz em tempo real, como um intérprete digital.
Murati anunciou que o GPT-4o também estará disponível como API, permitindo que desenvolvedores e empresas, sob uma assinatura, consigam “puxar” o ChatGPT para seus serviços e integrar o modelo de inteligência artificial em diferentes produtos. Além disso, a companhia anunciou melhorias para outros 50 idiomas.
Por fim, continuando a expansão do serviço, a OpenAI anunciou um novo aplicativo do ChatGPT para Mac, computador da Apple. A empresa afirma que, com isso, vai ser mais fácil integrar o chatbot a tarefas de produtividade do usuário, graças a um comando de teclado para acionar o robô. Ao final do ano, um app para Windows, da Microsoft, deve ser lançado.
Sam Altman, CEO da OpenAI, comentou as novidades do evento desta segunda-feira no Twitter.
A transmissão acontece a um dia de o Google realizar o seu principal evento do ano, o Google I/O, que também deve trazer novidades importantes na área. Especialistas esperam que a companhia demonstre a capacidade da IA Gemini como assistente pessoal, primeira IA do mercado a adotar a multimodalidade.
Golpe para Siri e Alexa
O evento da OpenAI mostrou como funcionam as capacidades de multimodalidade do ChatGPT-4o. O modelo consegue ser um assistente de voz, similar à Alexa (da Amazon) e à Siri (da Apple), e consegue ler imagens do mundo real a partir da câmera de um smartphone, como o Google já implementou no Android. A principal diferença para os rivais é que se trata de um único modelo capaz de realizar isso tudo.
Na demonstração desta segunda-feira, a IA consegue contar histórias com diferentes entonações na voz, como algo emocionado ou totalmente robótico. Além disso, com a câmera do celular, a IA ajuda a resolver equações matemáticas de primeiro grau escritas em uma folha de papel ou, ainda, atuar como um tradutor em tempo real de uma conversa.
Segundo a OpenAI, essas funções vão chegar para os usuários nas próximas semanas.
Reveja a apresentação abaixo.