Como funciona nova IA da OpenAI que promete raciocínio lógico e matemático avançados


OpenAI o1 abre nova fronteira para sistemas de inteligência artificial

Por Bruno Romani

Desde o lançamento do ChatGPT, em 2022, empresas e pesquisadores se acostumaram com uma máxima em relação a grandes modelos de linguagem (LLM): quanto mais crescem, maior é a capacidade de resposta - e, mesmo assim, até os problemas mais simples que envolvem lógica e matemática tendem a ir mal. Isso começou a mudar nesta quinta, 12, quando a OpenAI apresentou uma nova geração de inteligência artificial (IA), batizada de OpenAI o1.

Ao contrário de outros LLMs, que tentam responder imediatamente a um comando, a nova IA aborda os problemas em etapas, de forma parecida com aquilo que humanos fazem quando se deparam com tarefas complexas. O sistema avalia cada estágio na construção da resposta, o que permite a correção de erros e adoção de novas estratégias - um processo chamado de cadeia de pensamento (ou chain of thought). Dessa maneira, a o1 conseguiu melhorias importantes em áreas como ciência, matemática e programação.

OpenAI apresentou IA mais poderosa que o GPT-4o em áreas como matemática e raciocínio lógico  Foto: Mojahid Mottakin/Mojahid Mottakin - stock.adobe.com
continua após a publicidade

A OpenAI confirmou que essa é a IA batizada internamente de Strawberry, a suposta superinteligência artificial que teria assustado Ilya Sutskever, fundador da companhia que liderou o levante contra Sam Altman em novembro do ano passado - ele deixou a OpenAI em maio para fundar a startup Safe Superintelligence, que já levantou US$ 1 bilhão. Embora a IA esteja longe de ser uma inteligência artificial geral (AGI), um sistema com capacidade cognitiva semelhante ou superior à humana, a o1 traz avanços importantes para a área.

Até aqui, LLMs melhoravam sua capacidade de resposta apenas aumentando o tamanho dos dados em que eram treinados - uma vez treinado, o sistema tenta responder o mais rápido possível, buscando a conexões mais comuns entre palavras. Agora, os pesquisadores demonstraram que a performance também melhora quando é investido mais tempo de processamento para o sistema avaliar os dados que já possui, o que permite a busca por diferentes caminhos a uma resposta. E o sistema passa por um processo de validação chamado de aprendizado por reforço. Isso significa que durante o processo da cadeia de pensamento, a máquina é “premiada” quando encontra respostas certas - esses resultados são realimentados, o que garante a melhora na performance sem a adição de novos dados.

continua após a publicidade

“A cadeia de pensamentos é como quando um médico faz algumas perguntas para o paciente e, digamos, que a quarta resposta force o profissional da saúde a reavaliar as questões anteriores. Os LLMs ainda patinavam ao ter que voltar em estágios da produção de respostas”, explica Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG).

A cadeia de pensamentos é como quando um médico faz algumas perguntas para o paciente e, digamos, que a quarta resposta force o profissional da saúde a reavaliar as questões anteriores. Os LLMs ainda patinavam ao ter que voltar em estágios da produção de respostas

Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da UFG

Tanto o processo de cadeia de pensamentos quanto o aprendizado por reforço já eram técnicas aplicadas no campo da IA depois do treinamento do sistema. Agora, as técnicas foram embutidas já na arquitetura da IA.

continua após a publicidade
OpenAI o1 já está embutido na versão paga do ChatGPT  Foto: Openai

É um processo sofisticado, que aumento o consumo de poder computacional ainda mais, o que deve gerar críticas à OpenAI, que, como outras gigantes da tecnologia, como Google e Meta, já consome grandes quantidades de recursos para treinar seus sistemas. Por outro lado, é uma solução que deve agradar fabricantes de processadores de IA (GPUs), principalmente a Nvidia.

Nos testes publicados pela OpenAI, o o1 acertou 83% das questões das Olimpíadas de Matemática dos EUA. O GPT-4o, até aqui a IA mais avançada da empresa, acertou 12%. É um resultado que coloca o o1 no top 500 das Olimpíadas de Matemática do país. Já ao receber o prontuário de um paciente, o o1 conseguiu diagnosticar corretamente que ele tinha síndrome KBG, uma doença genética rara.

continua após a publicidade

“Não se evolui tão rápido em tão pouco tempo. É assustador ver o salto que o o1 dá em matemática e programação”, diz Soares.

Poderoso, mas limitado

O avanço, porém, não significa que o GPT-4o - e sua tecnologia - será aposentado. No relatório da OpenAI, admite as limitações do o1, como não ter acesso à internet em tempo real e não produzir resultados multimodais, como imagens e vídeos. Mais importante: ele segue perdendo do GPT-4o em tarefas que exigem produção e edição de texto.

continua após a publicidade

À revista Wired, Mira Murati, chefe de tecnologia da empresa, afirma que a companhia está desenvolvendo o GPT-5 - e que parte da capacidade do o1 pode ser incorporada à nova IA. Em outras palavras, o novo sistema deverá combinar uma capacidade de texto ainda mais poderosa com habilidades sofisticadas de raciocínio lógico e matemática.

A separação em uma família de IAs com outro nome é uma demonstração de duas classes de algoritmos para habilidades diferentes: linguagem e lógica e matemática. Combiná-las pode resultar em uma ferramenta ainda mais poderosa.

Riscos

continua após a publicidade

No relatório de riscos publicado voluntariamente pela OpenAI, como demanda a ordem executiva de outubro do ano passado do presidente Joe Biden, a companhia afirmou que o seu modelo é mais seguro do que o GPT-4o.

Segundo a OpenAI, a técnica da cadeia de pensamentos permite embutir no sistema o que se chama de “alinhamento” - ou seja, regras e limites que respeitem a segurança humana. “Integrar nossas políticas de comportamento de modelo na cadeia de pensamento é uma maneira efetiva de ensinar de forma robusta os valores e princípios humanos”, diz a companhia.

O sistema, por exemplo, melhorou a performance para evitar a produção de conteúdo sexual envolvendo menores. Ele deixou de realizar outros comandos prejudiciais e se mostrou menos suscetível a jailbreaks, quando o sistema é de alguma forma enganado para realizar prompts do tipo.

No entanto, o relatório acendeu uma luz amarela ao dizer que o o1 apresenta risco médio de auxiliar a criação de um ataque biológico. A OpenAI, no entanto, afirma que só torna públicos modelos com risco médio e que só desenvolve ainda mais modelos que tenham à disposição ferramenta de mitigação em nível “alto”.

A companhia também foi criticada por não tornar público aos usuários a cadeia de pensamento das respostas. Embora possa ajudar o usuário a entender como a máquina chegou a uma solução, a OpenAI considerou que isso poderia aumentar as chances do sistema ser enganado e hackeado por agentes maliciosos.

Desde o lançamento do ChatGPT, em 2022, empresas e pesquisadores se acostumaram com uma máxima em relação a grandes modelos de linguagem (LLM): quanto mais crescem, maior é a capacidade de resposta - e, mesmo assim, até os problemas mais simples que envolvem lógica e matemática tendem a ir mal. Isso começou a mudar nesta quinta, 12, quando a OpenAI apresentou uma nova geração de inteligência artificial (IA), batizada de OpenAI o1.

Ao contrário de outros LLMs, que tentam responder imediatamente a um comando, a nova IA aborda os problemas em etapas, de forma parecida com aquilo que humanos fazem quando se deparam com tarefas complexas. O sistema avalia cada estágio na construção da resposta, o que permite a correção de erros e adoção de novas estratégias - um processo chamado de cadeia de pensamento (ou chain of thought). Dessa maneira, a o1 conseguiu melhorias importantes em áreas como ciência, matemática e programação.

OpenAI apresentou IA mais poderosa que o GPT-4o em áreas como matemática e raciocínio lógico  Foto: Mojahid Mottakin/Mojahid Mottakin - stock.adobe.com

A OpenAI confirmou que essa é a IA batizada internamente de Strawberry, a suposta superinteligência artificial que teria assustado Ilya Sutskever, fundador da companhia que liderou o levante contra Sam Altman em novembro do ano passado - ele deixou a OpenAI em maio para fundar a startup Safe Superintelligence, que já levantou US$ 1 bilhão. Embora a IA esteja longe de ser uma inteligência artificial geral (AGI), um sistema com capacidade cognitiva semelhante ou superior à humana, a o1 traz avanços importantes para a área.

Até aqui, LLMs melhoravam sua capacidade de resposta apenas aumentando o tamanho dos dados em que eram treinados - uma vez treinado, o sistema tenta responder o mais rápido possível, buscando a conexões mais comuns entre palavras. Agora, os pesquisadores demonstraram que a performance também melhora quando é investido mais tempo de processamento para o sistema avaliar os dados que já possui, o que permite a busca por diferentes caminhos a uma resposta. E o sistema passa por um processo de validação chamado de aprendizado por reforço. Isso significa que durante o processo da cadeia de pensamento, a máquina é “premiada” quando encontra respostas certas - esses resultados são realimentados, o que garante a melhora na performance sem a adição de novos dados.

“A cadeia de pensamentos é como quando um médico faz algumas perguntas para o paciente e, digamos, que a quarta resposta force o profissional da saúde a reavaliar as questões anteriores. Os LLMs ainda patinavam ao ter que voltar em estágios da produção de respostas”, explica Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG).

A cadeia de pensamentos é como quando um médico faz algumas perguntas para o paciente e, digamos, que a quarta resposta force o profissional da saúde a reavaliar as questões anteriores. Os LLMs ainda patinavam ao ter que voltar em estágios da produção de respostas

Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da UFG

Tanto o processo de cadeia de pensamentos quanto o aprendizado por reforço já eram técnicas aplicadas no campo da IA depois do treinamento do sistema. Agora, as técnicas foram embutidas já na arquitetura da IA.

OpenAI o1 já está embutido na versão paga do ChatGPT  Foto: Openai

É um processo sofisticado, que aumento o consumo de poder computacional ainda mais, o que deve gerar críticas à OpenAI, que, como outras gigantes da tecnologia, como Google e Meta, já consome grandes quantidades de recursos para treinar seus sistemas. Por outro lado, é uma solução que deve agradar fabricantes de processadores de IA (GPUs), principalmente a Nvidia.

Nos testes publicados pela OpenAI, o o1 acertou 83% das questões das Olimpíadas de Matemática dos EUA. O GPT-4o, até aqui a IA mais avançada da empresa, acertou 12%. É um resultado que coloca o o1 no top 500 das Olimpíadas de Matemática do país. Já ao receber o prontuário de um paciente, o o1 conseguiu diagnosticar corretamente que ele tinha síndrome KBG, uma doença genética rara.

“Não se evolui tão rápido em tão pouco tempo. É assustador ver o salto que o o1 dá em matemática e programação”, diz Soares.

Poderoso, mas limitado

O avanço, porém, não significa que o GPT-4o - e sua tecnologia - será aposentado. No relatório da OpenAI, admite as limitações do o1, como não ter acesso à internet em tempo real e não produzir resultados multimodais, como imagens e vídeos. Mais importante: ele segue perdendo do GPT-4o em tarefas que exigem produção e edição de texto.

À revista Wired, Mira Murati, chefe de tecnologia da empresa, afirma que a companhia está desenvolvendo o GPT-5 - e que parte da capacidade do o1 pode ser incorporada à nova IA. Em outras palavras, o novo sistema deverá combinar uma capacidade de texto ainda mais poderosa com habilidades sofisticadas de raciocínio lógico e matemática.

A separação em uma família de IAs com outro nome é uma demonstração de duas classes de algoritmos para habilidades diferentes: linguagem e lógica e matemática. Combiná-las pode resultar em uma ferramenta ainda mais poderosa.

Riscos

No relatório de riscos publicado voluntariamente pela OpenAI, como demanda a ordem executiva de outubro do ano passado do presidente Joe Biden, a companhia afirmou que o seu modelo é mais seguro do que o GPT-4o.

Segundo a OpenAI, a técnica da cadeia de pensamentos permite embutir no sistema o que se chama de “alinhamento” - ou seja, regras e limites que respeitem a segurança humana. “Integrar nossas políticas de comportamento de modelo na cadeia de pensamento é uma maneira efetiva de ensinar de forma robusta os valores e princípios humanos”, diz a companhia.

O sistema, por exemplo, melhorou a performance para evitar a produção de conteúdo sexual envolvendo menores. Ele deixou de realizar outros comandos prejudiciais e se mostrou menos suscetível a jailbreaks, quando o sistema é de alguma forma enganado para realizar prompts do tipo.

No entanto, o relatório acendeu uma luz amarela ao dizer que o o1 apresenta risco médio de auxiliar a criação de um ataque biológico. A OpenAI, no entanto, afirma que só torna públicos modelos com risco médio e que só desenvolve ainda mais modelos que tenham à disposição ferramenta de mitigação em nível “alto”.

A companhia também foi criticada por não tornar público aos usuários a cadeia de pensamento das respostas. Embora possa ajudar o usuário a entender como a máquina chegou a uma solução, a OpenAI considerou que isso poderia aumentar as chances do sistema ser enganado e hackeado por agentes maliciosos.

Desde o lançamento do ChatGPT, em 2022, empresas e pesquisadores se acostumaram com uma máxima em relação a grandes modelos de linguagem (LLM): quanto mais crescem, maior é a capacidade de resposta - e, mesmo assim, até os problemas mais simples que envolvem lógica e matemática tendem a ir mal. Isso começou a mudar nesta quinta, 12, quando a OpenAI apresentou uma nova geração de inteligência artificial (IA), batizada de OpenAI o1.

Ao contrário de outros LLMs, que tentam responder imediatamente a um comando, a nova IA aborda os problemas em etapas, de forma parecida com aquilo que humanos fazem quando se deparam com tarefas complexas. O sistema avalia cada estágio na construção da resposta, o que permite a correção de erros e adoção de novas estratégias - um processo chamado de cadeia de pensamento (ou chain of thought). Dessa maneira, a o1 conseguiu melhorias importantes em áreas como ciência, matemática e programação.

OpenAI apresentou IA mais poderosa que o GPT-4o em áreas como matemática e raciocínio lógico  Foto: Mojahid Mottakin/Mojahid Mottakin - stock.adobe.com

A OpenAI confirmou que essa é a IA batizada internamente de Strawberry, a suposta superinteligência artificial que teria assustado Ilya Sutskever, fundador da companhia que liderou o levante contra Sam Altman em novembro do ano passado - ele deixou a OpenAI em maio para fundar a startup Safe Superintelligence, que já levantou US$ 1 bilhão. Embora a IA esteja longe de ser uma inteligência artificial geral (AGI), um sistema com capacidade cognitiva semelhante ou superior à humana, a o1 traz avanços importantes para a área.

Até aqui, LLMs melhoravam sua capacidade de resposta apenas aumentando o tamanho dos dados em que eram treinados - uma vez treinado, o sistema tenta responder o mais rápido possível, buscando a conexões mais comuns entre palavras. Agora, os pesquisadores demonstraram que a performance também melhora quando é investido mais tempo de processamento para o sistema avaliar os dados que já possui, o que permite a busca por diferentes caminhos a uma resposta. E o sistema passa por um processo de validação chamado de aprendizado por reforço. Isso significa que durante o processo da cadeia de pensamento, a máquina é “premiada” quando encontra respostas certas - esses resultados são realimentados, o que garante a melhora na performance sem a adição de novos dados.

“A cadeia de pensamentos é como quando um médico faz algumas perguntas para o paciente e, digamos, que a quarta resposta force o profissional da saúde a reavaliar as questões anteriores. Os LLMs ainda patinavam ao ter que voltar em estágios da produção de respostas”, explica Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG).

A cadeia de pensamentos é como quando um médico faz algumas perguntas para o paciente e, digamos, que a quarta resposta force o profissional da saúde a reavaliar as questões anteriores. Os LLMs ainda patinavam ao ter que voltar em estágios da produção de respostas

Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da UFG

Tanto o processo de cadeia de pensamentos quanto o aprendizado por reforço já eram técnicas aplicadas no campo da IA depois do treinamento do sistema. Agora, as técnicas foram embutidas já na arquitetura da IA.

OpenAI o1 já está embutido na versão paga do ChatGPT  Foto: Openai

É um processo sofisticado, que aumento o consumo de poder computacional ainda mais, o que deve gerar críticas à OpenAI, que, como outras gigantes da tecnologia, como Google e Meta, já consome grandes quantidades de recursos para treinar seus sistemas. Por outro lado, é uma solução que deve agradar fabricantes de processadores de IA (GPUs), principalmente a Nvidia.

Nos testes publicados pela OpenAI, o o1 acertou 83% das questões das Olimpíadas de Matemática dos EUA. O GPT-4o, até aqui a IA mais avançada da empresa, acertou 12%. É um resultado que coloca o o1 no top 500 das Olimpíadas de Matemática do país. Já ao receber o prontuário de um paciente, o o1 conseguiu diagnosticar corretamente que ele tinha síndrome KBG, uma doença genética rara.

“Não se evolui tão rápido em tão pouco tempo. É assustador ver o salto que o o1 dá em matemática e programação”, diz Soares.

Poderoso, mas limitado

O avanço, porém, não significa que o GPT-4o - e sua tecnologia - será aposentado. No relatório da OpenAI, admite as limitações do o1, como não ter acesso à internet em tempo real e não produzir resultados multimodais, como imagens e vídeos. Mais importante: ele segue perdendo do GPT-4o em tarefas que exigem produção e edição de texto.

À revista Wired, Mira Murati, chefe de tecnologia da empresa, afirma que a companhia está desenvolvendo o GPT-5 - e que parte da capacidade do o1 pode ser incorporada à nova IA. Em outras palavras, o novo sistema deverá combinar uma capacidade de texto ainda mais poderosa com habilidades sofisticadas de raciocínio lógico e matemática.

A separação em uma família de IAs com outro nome é uma demonstração de duas classes de algoritmos para habilidades diferentes: linguagem e lógica e matemática. Combiná-las pode resultar em uma ferramenta ainda mais poderosa.

Riscos

No relatório de riscos publicado voluntariamente pela OpenAI, como demanda a ordem executiva de outubro do ano passado do presidente Joe Biden, a companhia afirmou que o seu modelo é mais seguro do que o GPT-4o.

Segundo a OpenAI, a técnica da cadeia de pensamentos permite embutir no sistema o que se chama de “alinhamento” - ou seja, regras e limites que respeitem a segurança humana. “Integrar nossas políticas de comportamento de modelo na cadeia de pensamento é uma maneira efetiva de ensinar de forma robusta os valores e princípios humanos”, diz a companhia.

O sistema, por exemplo, melhorou a performance para evitar a produção de conteúdo sexual envolvendo menores. Ele deixou de realizar outros comandos prejudiciais e se mostrou menos suscetível a jailbreaks, quando o sistema é de alguma forma enganado para realizar prompts do tipo.

No entanto, o relatório acendeu uma luz amarela ao dizer que o o1 apresenta risco médio de auxiliar a criação de um ataque biológico. A OpenAI, no entanto, afirma que só torna públicos modelos com risco médio e que só desenvolve ainda mais modelos que tenham à disposição ferramenta de mitigação em nível “alto”.

A companhia também foi criticada por não tornar público aos usuários a cadeia de pensamento das respostas. Embora possa ajudar o usuário a entender como a máquina chegou a uma solução, a OpenAI considerou que isso poderia aumentar as chances do sistema ser enganado e hackeado por agentes maliciosos.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.