Para chegar ao estágio atual dos chatbots espertos, como o ChatGPT, pesquisadores de inteligência artificial (IA) usaram ao longo dos anos uma receita básica: mais dados e mais poder computacional resultam em ganhos de performance. No entanto, alguns dos pilares dessa fórmula parecem dar sinais de esgotamento, o que coloca em xeque o futuro da tecnologia.
Em teoria, cientistas já sabiam que aumentar dados e capacidade computacional resultaria em ganhos significativos de performance de modelos de IA desde os anos 1980. Mas foi só em 2017, com avanços nas técnicas de deep learning, o aumento da capacidade de chips e a disponibilidade maior de informações, que cientistas da gigante chinesa Baidu publicaram um artigo que demonstrava matematicamente a dinâmica.
Leia também
Três anos depois, o cientista Jared Kaplan, da Universidade John Hopkins e funcionário da OpenAI, publicou um artigo focado nos ganhos de performance de modelos de linguagem quando conjuntos de dados crescem. O artigo foi batizado de “Leis da escalabilidade para Modelos Neurais de Linguagem”. Foi no mesmo ano em que a startup lançou o GPT-3, que comprovava o que o estudo pregava - de fato, a comunidade científica percebeu esse tipo de avanço já no GPT-2, de 2019. Desde então, a OpenAI passou a pregar sobre a lei de escalabilidade como um pilar central dos avanços em IA.
O sinal amarelo de que a lei da escalabilidade está próxima do teto foi dado recentemente por um dos principais nomes da história da IA, Ilya Sutskever, que deixou a OpenAI em maio. “O pré-treinamento (de modelos de IA) como conhecemos vai acabar sem dúvidas”, disse ele no começo de dezembro NeurIPS, um dos principais eventos da área no mundo. Antes disso, ele já havia declarado à Reuters: “A década de 2010 foi a era da escalabilidade, e estamos de volta à era do encantamento e da descoberta. Todos estão procurando a próxima grande novidade.”
Críticos dizem que a opinião dele é suspeita, afinal Sutskever saiu brigado da OpenAI para fundar a startup Superintelligence Inc - o pesquisador liderou o golpe fracassado contra Sam Altman, CEO da OpenAI, em novembro do ano passado. Do ponto de vista dos negócios, é interessante para ele derrubar um pilar de sua ex-empresa. Mas até quem tem muito a perder está indicando que o teto está próximo.
A década de 2010 foi a era da escalabilidade, e estamos de volta à era do encantamento e da descoberta. Todos estão procurando a próxima grande novidade
Ilya Sutskever, fundador da Superintelligence Inc
“Todos na indústria estão vendo a diminuição dos retornos”, afirmou em entrevista ao New York Times Demis Hassabis, ganhador do Prêmio Nobel de Química em 2024 e líder da divisão de IA do Google. Em novembro, a Bloomberg reportou que tanto Google quanto OpenAI e Anthropic estavam encontrando dificuldades de progredir seus modelos, algo que todas negaram.
No lançamento do Gemini 2.0, no começo deste mês, Gary Marcus, professor da Universidade de Nova York, postou na rede social Bluesky uma crítica ao suposto progresso da nova IA. Ele publicou uma tabela que mostrava a comparação de performance entre o Gemini 2.0 e seus antecessores e disse. “Isso não é exponencial. São retornos reduzidos com um grande e secreto custo ambiental”.
Marcus vem sendo um crítico feroz do estado atual da IA e já alertava para o teto dos atuais modelos em março de 2022, oito meses antes do ChatGPT. “As leis da escalabilidade não são universais como a gravidade, mas apenas observações que podem não se sustentar eternamente”, escreveu ele no artigo batizado “Deep Learning is Hitting a Wall” (O aprendizado profundo está atingindo um teto, em tradução literal).
Claro, ele foi criticado por representantes e entusiastas do setor. Altman, da OpenAI, chegou a publicar que “não existe um teto”. Mas Marcus passou a notar que nas últimas semanas até os líderes dessas empresas estão moldando o discurso.
Um deles é Satya Nadella, CEO da Microsoft, que disse durante um evento da empresa em novembro: " Há muito debate sobre termos atingido o limite das leis de escalabilidade. Será que isso vai continuar? É realmente bom ter algum ceticismo, algum debate, porque acho que isso motivará mais inovação, seja nas arquiteturas de modelos, seja nos regimes de dados ou até mesmo na arquitetura do sistema. Se estamos vendo alguma coisa, é o surgimento de uma nova lei de escalabilidade”.
Teto dos dados
Ainda que nada mude nas leis de escalabilidade, o modelo atual tem outro desafio no horizonte: a escassez de dados para treinar os sistemas. Um grande clichê do mundo da tecnologia é que dados são o novo petróleo. Ele, claro, mira na capacidade de grandes volumes de informações gerarem transformações econômicas sem precedentes. Mas a analogia é míope em relação a outro aspecto: assim como combustíveis fósseis, dados são finitos.
Pesquisadores da Epoch AI estimaram que, em 2028, o tamanho do conjunto de dados necessário para treinar uma IA terá o mesmo tamanho que todo o estoque de textos públicos na internet. A pesquisa estima que os textos disponíveis na internet somam 3,1 quadrilhões de tokens, os pedacinhos de palavras que são detectados por sistemas de IA.
Segundo a pesquisa da Epoch AI, o conteúdo público na internet cresce 10% ao ano, enquanto o consumo de dados no treinamento de IAs mais do que dobra anualmente, o que resultaria no consumo total das informações nos próximos quatro anos. E os desafios para a coleta de dados estão aumentando: há processos por direitos autorais, redes sociais fechando seus conteúdos e sites bloqueando a coleta de informações.
“A gente tem pelo menos nos próximos 20 ou 30 anos uma crescente de dados óbvia, porque tem essa questão geracional. Há uma geração que é nativa digital e já nasce produzindo dados. A grande questão é que com a entrada das big techs no desenvolvimento da IA, o poder de consumir e o quanto a gente cresce na produção de dados ficou muito desproporcional”, afirma ao Estadão Anderson Soares, coordenador do Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás (UFG).
Uma das opções para contornar a escassez de dados é alimentar modelos com textos produzidos por outras IAs, algo chamado de dado sintético.
Mas há problemas nesse método. Um artigo publicado por pesquisadores das universidades de Oxford e Cambridge afirma que modelos de IA entram em colapso quando alimentados por dados sintéticos. Segundo a pesquisa, dados gerados por outras IAs, perdem informações, se “esquecem” sobre eventos e produzem uma representação simplificada da realidade.
Ainda que os dados sejam infinitos, há também uma corrente no mundo da IA que acredita que há um limite para aquilo que modelos podem aprender a partir de textos, entre eles estão Yan LeCun, ganhador do Prêmio Turing de 2019 (o “Nobel da Computação) e principal pesquisador da Meta. Um cenário comum que ele costuma descrever é o seguinte: uma pessoa demoraria 170 mil anos para ler os dados médios que treinam uma IA, mas uma criança absorve um volume de informações 50 vezes maior apenas observando o mundo a sua volta. Ou seja, a busca por outros tipos de dados é mandatória.
Novas técnicas
Apesar dos tetos tanto para leis de escalabilidade quanto para a disponibilidade de dados, o setor de IA já olha para alternativas. “Se você chega a um limite, é preciso ser criativo. Acredito que a gente vai continuar a ter progressos nessa com as novas técnicas, novos métodos e até novas arquiteturas”, afirma ao Estadão Rafael Sandroni, ex-engenheiro de Siri na Apple e desenvolvedor de ferramentas de segurança para IA.
Uma dessas vias alternativas começou em setembro, quando a OpenAI lançou o OpenAI-o1. O sistema avalia cada estágio na construção da resposta, o que permite a correção de erros e adoção de novas estratégias - um processo chamado de cadeia de pensamento (ou chain of thought).
Vemos surgir uma nova forma de escalabilidade computacional. Não são apenas mais dados de treinamento e modelos maiores, mas mais tempo gasto ‘pensando’ nas respostas
Yoshua Bengio, vencedor do Prêmio Turing de 2019.
Agora, os pesquisadores demonstraram que a performance também melhora quando é investido mais tempo de processamento para o sistema avaliar os dados que já possui, o que permite a busca por diferentes caminhos para uma resposta. “Vemos surgir uma nova forma de escalabilidade computacional. Não são apenas mais dados de treinamento e modelos maiores, mas mais tempo gasto ‘pensando’ nas respostas”, escreveu Yoshua Bengio, um dos maiores nomes da história da IA e também vencedor do Prêmio Turing de 2019.
Nesta sexta, 20, a OpenAI já atualizou o o1, que agora virou o3. Usando a técnica de “pensar mais”, a nova versão deu sinais de superinteligência em testes exibidos pela companhia - ainda é necessário aguardar avaliações externas para a confirmação de que o sistema exibiu capacidade sobre humana em algumas tarefas. Antes da companhia de Sam Altman, o Google mostrou o Gemini 2.0 que também usa técnicas de racionalização sobre dados. É um sinal de que algo mudou. “Usar esse tipo de técnica dá muito mais trabalho e é mais caro do que estava sendo feito antes”, lembra Soares.
Outra opção no campo é o uso de “agentes de IA”, programas com capacidade de realizar tarefas de maneira autônoma, com pouca ou nenhuma supervisão humana. Normalmente, eles são modelos de IA menores e mais especializados que trabalham juntos para realizar tarefas mais complexas. “Pode ser que o progresso venha não de um modelo, mas sim de vários modelos trabalhando em conjunto. Tem gente que fala que o ChatGPT tem vários modelos trabalhando em conjunto. Eu vivenciei isso na Siri mesmo antes dos LLMs. É um caminho que essas empresas vão seguir”, diz Sandroni.
E ainda que tudo dê errado e o mundo da IA atinja um teto de desenvolvimento, é possível que os reflexos do que foi construído até aqui perdurem por muitos anos. “Você ainda vai ter todo um cascateamento de produção em cima disso. Gerar uma tecnologia é muito diferente de você gerar um produto. Você ainda vai ter uma série de empreendedores na tentativa de geração de novos modelos de negócio em cima de tudo o que foi criado com a leis da escalabilidade”, diz Soares.
Os comentários são exclusivos para assinantes do Estadão.