Dez habilidades que fazem o GPT-4 ser impressionante, mas imperfeito

Uma nova versão da tecnologia por trás do ChatGPT, chatbot de inteligência artificial que encantou o setor de tecnologia há quatro meses, apresentou melhorias em relação à sua versão anterior. Ele é um especialista em uma série de assuntos, impressionando até mesmo médicos com suas orientações médicas. Ele pode descrever imagens e está quase contando piadas que são mais ou menos engraçadas.

Entretanto, o novo sistema de inteligência artificial do qual muito se falou, o GPT-4, ainda tem algumas peculiaridades e comete alguns dos mesmos erros habituais que frustraram os pesquisadores quando o chatbot ChatGPT foi lançado. E, embora seja muito bom com provas, o sistema da startup OpenAI, de São Francisco, Califórnia, não está prestes a se igualar à inteligência humana.

Aqui está um breve guia de novidades para GPT-4:

continua após a publicidade

Mais precisão

Quando Chris Nicholson, especialista em IA e sócio da empresa de capital de risco Page One Ventures, usou o GPT-4 numa tarde recente, disse ao bot que falava inglês, mas não tinha qualquer conhecimento de espanhol.

Ele solicitou um plano de estudos para aprender o básico e o bot apresentou um programa detalhado e bem organizado. E ofereceu até mesmo uma grande variedade de técnicas para aprender e memorizar as palavras em espanhol (embora nem todas as suas sugestões tenham sido boas).

continua após a publicidade

Nicholson fez um pedido semelhante à versão anterior do ChatGPT, que conta com o GPT-3.5. Ele também recebeu um plano de estudos, mas as sugestões dadas foram mais gerais e menos úteis.

“Ele rompeu a barreira da precisão”, disse Nicholson. “Está incluindo mais fatos, que estão com grande frequência corretos.”

Exatidão melhorou

continua após a publicidade

Quando Oren Etzioni, pesquisador e professor de IA, experimentou pela primeira vez o novo bot, ele fez uma pergunta direta: “Qual é a relação entre Oren Etzioni e Eli Etzioni?”. O bot respondeu corretamente.

A resposta da versão anterior do ChatGPT a essa pergunta estava sempre errada. Acertá-la indica que o novo chatbot tem um conjunto mais amplo de conhecimentos. Mas ele ainda comete erros.

O bot começou a responder: “Oren Etzioni é um cientista da computação e CEO do Instituto Allen de Inteligência Artificial (AI2), enquanto Eli Etzioni é um empreendedor”. Grande parte disso está correto, mas o bot – cujo treinamento foi concluído em agosto – não se deu conta de que Etzioni havia recentemente deixado o cargo de CEO do Instituto Allen.

continua após a publicidade

Descrição surpreendente de imagens

O GPT-4 tem uma nova capacidade de responder a imagens, assim como a textos. Greg Brockman, presidente e cofundador da OpenAI, demonstrou como o sistema poderia descrever uma imagem do Telescópio Espacial Hubble nos mínimos detalhes. A descrição estendeu-se por parágrafos.

Ele também pode responder a perguntas sobre uma imagem. Caso seja alimentado com uma foto do interior de uma geladeira, pode sugerir algumas refeições para preparar com o que há disponível.

continua após a publicidade

A OpenAI ainda não lançou essa parte da tecnologia para o público em geral, mas uma empresa chamada Be My Eyes já está usando o GPT-4 para desenvolver serviços que poderiam dar uma ideia mais detalhada das imagens encontradas na internet ou das fotografias tiradas no mundo real.

Conhecimentos importantes

Em uma noite recente, Anil Gehi, professor de medicina e cardiologista da Universidade da Carolina do Norte, em Chapel Hill, descreveu ao chatbot o histórico médico de um paciente que havia atendido no dia anterior, incluindo as complicações sofridas por ele depois de ser internado no hospital. A descrição continha vários termos médicos que leigos não entenderiam.

continua após a publicidade

Quando Gehi perguntou como ele deveria ter tratado o paciente, o chatbot deu uma resposta perfeita. “Tínhamos tratado o paciente exatamente daquela forma”, afirmou.

Quando ele testou outros cenários, o bot deu respostas igualmente impressionantes.

É pouco provável que esse conhecimento seja exposto todas as vezes em que o bot for usado. Ele ainda precisa de especialistas como Gehi para avaliar suas respostas e realizar os procedimentos médicos. Mas é capaz de apresentar esse tipo de conhecimento em muitas áreas, desde a programação de computadores à contabilidade.

Pé de igualdade com editores

Ao visualizar um artigo do jornal New York Times, o novo chatbot foi capaz de oferecer um resumo preciso e exato do texto quase todas as vezes. Se você adicionar uma frase aleatória ao resumo e perguntar ao bot se o texto está incorreto, ele chamará a atenção para a frase adicionada.

Etzioni disse que essa era uma habilidade extraordinária. “Para fazer um resumo de excelente qualidade e uma comparação de alto padrão, é preciso ter um nível de compreensão textual e uma capacidade de articular esse entendimento”, afirmou. “Essa é uma forma avançada de inteligência.”

Senso de humor (mais ou menos)

Etzioni pediu à versão mais recente do bot para contar “uma piada nova sobre a cantora Madonna”. A resposta o deixou maravilhado. E também lhe fez rir. Se você estiver por dentro dos maiores hits de Madonna, ela talvez também possa impressioná-lo.

O novo bot ainda tem dificuldades para escrever piadas que não sejam aquelas de tiozão estereotipadas. Entretanto, foi ligeiramente mais engraçado do que sua versão anterior.

Raciocínio até certo ponto

Etzioni deu ao novo bot uma charada.

O sistema parecia estar dando uma resposta adequada. Mas a resposta não levou em consideração a altura da porta, o que também pode impedir a passagem de um tanque ou de um carro.

O CEO da OpenAI, Sam Altman, disse que o novo bot podia raciocinar “um pouco”. Mas suas habilidades de raciocínio falham em muitas situações. A versão anterior do ChatGPT lidou com a pergunta um pouco melhor porque reconheceu que a altura e a largura faziam diferença.

Sam Altman, cofundador da OpenAI Foto: Ian C. Bates/The New York Times

Gabarito de testes

A OpenAI disse que o novo sistema consegue pontuações como daqueles que se encontram entre os 10% mais bem avaliados no exame da ordem dos advogados dos Estados Unidos, que habilita advogados em 41 Estados e territórios do país americano. Ele também consegue pontuações de 1300 (quando o máximo é de 1600) no SAT, a prova de vestibular dos EUA, e gabarita provas de nível universitário realizadas no Ensino Médio em matérias como biologia, cálculo, macroeconomia, psicologia, estatística e história, de acordo com os testes da empresa.

As versões anteriores da tecnologia não conseguiam passar na prova da ordem dos advogados, nem ter pontuações tão altas nas provas avançadas de ensino médio.

Numa tarde recente, para demonstrar suas habilidades com provas, Brockman alimentou o novo bot com uma pergunta longa de um exame da ordem de advogados a respeito de um homem no comando de uma empresa de conserto de caminhões a diesel.

A resposta estava correta, mas cheia de juridiquês. Então, Brockman pediu ao bot para explicar a resposta de forma simplificada para um leigo. Ele fez isso também.

Nada de falar sobre o futuro

Apesar de o novo bot parecer raciocinar em relação a coisas que já aconteceram, ele foi menos hábil quando solicitado a formular hipóteses a respeito do futuro. Parecia estar se baseando naquilo que outros já disseram, em vez de fazer novas suposições.

Quando Etzioni perguntou ao novo bot: “Quais são os problemas importantes a serem resolvidos na pesquisa de PLN na próxima década?” – referindo-se ao tipo de pesquisa de “processamento de linguagem natural” que impulsiona o desenvolvimento de sistemas como o ChatGPT –, ele não conseguia formular ideias totalmente novas.

ChatGPT continua alucinando

O novo bot ainda inventa coisas. Chamado de “alucinação”, o problema atormenta todos os principais chatbots. Como os sistemas não compreendem o que é verdadeiro e o que não é, eles podem gerar textos completamente falsos.

Quando foram solicitados os endereços de sites que descreviam as pesquisas mais recentes sobre câncer, ele às vezes criava endereços de internet que não existiam. / TRADUÇÃO DE ROMINA CÁCIA

Aqui está um breve guia de novidades para GPT-4:

Mais precisão

Nicholson fez um pedido semelhante à versão anterior do ChatGPT, que conta com o GPT-3.5. Ele também recebeu um plano de estudos, mas as sugestões dadas foram mais gerais e menos úteis.

“Ele rompeu a barreira da precisão”, disse Nicholson. “Está incluindo mais fatos, que estão com grande frequência corretos.”

Exatidão melhorou

A resposta da versão anterior do ChatGPT a essa pergunta estava sempre errada. Acertá-la indica que o novo chatbot tem um conjunto mais amplo de conhecimentos. Mas ele ainda comete erros.

Descrição surpreendente de imagens

Ele também pode responder a perguntas sobre uma imagem. Caso seja alimentado com uma foto do interior de uma geladeira, pode sugerir algumas refeições para preparar com o que há disponível.

Conhecimentos importantes

Quando Gehi perguntou como ele deveria ter tratado o paciente, o chatbot deu uma resposta perfeita. “Tínhamos tratado o paciente exatamente daquela forma”, afirmou.

Quando ele testou outros cenários, o bot deu respostas igualmente impressionantes.

Pé de igualdade com editores

Senso de humor (mais ou menos)

O novo bot ainda tem dificuldades para escrever piadas que não sejam aquelas de tiozão estereotipadas. Entretanto, foi ligeiramente mais engraçado do que sua versão anterior.

Raciocínio até certo ponto

Etzioni deu ao novo bot uma charada.

O sistema parecia estar dando uma resposta adequada. Mas a resposta não levou em consideração a altura da porta, o que também pode impedir a passagem de um tanque ou de um carro.

Sam Altman, cofundador da OpenAI Foto: Ian C. Bates/The New York Times

Gabarito de testes

As versões anteriores da tecnologia não conseguiam passar na prova da ordem dos advogados, nem ter pontuações tão altas nas provas avançadas de ensino médio.

A resposta estava correta, mas cheia de juridiquês. Então, Brockman pediu ao bot para explicar a resposta de forma simplificada para um leigo. Ele fez isso também.

Dez habilidades que fazem o GPT-4 ser impressionante, mas imperfeito

OpenAI atualizou a tecnologia por trás de seu chatbot, que ainda traz ‘alucinações’

Mais precisão

Exatidão melhorou

Descrição surpreendente de imagens

Conhecimentos importantes

Pé de igualdade com editores

Senso de humor (mais ou menos)

Raciocínio até certo ponto

Gabarito de testes

Nada de falar sobre o futuro

ChatGPT continua alucinando

Mais precisão

Exatidão melhorou

Descrição surpreendente de imagens

Conhecimentos importantes

Pé de igualdade com editores

Senso de humor (mais ou menos)

Raciocínio até certo ponto

Gabarito de testes

Nada de falar sobre o futuro

ChatGPT continua alucinando

Mais precisão

Exatidão melhorou

Descrição surpreendente de imagens

Conhecimentos importantes

Pé de igualdade com editores

Senso de humor (mais ou menos)

Raciocínio até certo ponto

Gabarito de testes

Nada de falar sobre o futuro

ChatGPT continua alucinando

Atualizamos nossa política de cookies