Embora sejam bastante hábeis como ferramentas de tradução, sistemas de inteligência artificial (IA) “pensam” em inglês. O motivo para isso é a sua origem: modelos como o que abastece o ChatGPT são treinados principalmente com conteúdo criado na internet, um ambiente no qual se estima que 60% das páginas estão disponíveis no idioma de William Shakespeare. Nascido em Itapira (SP), Rodrigo Nogueira quer mudar isso - sua startup, a Maritaca AI, planeja ensinar português para as máquinas.
Fundada em Campinas (SP) em outubro de 2022, a Maritaca acredita no treinamento para idiomas específicos de grandes modelos de linguagem (LLM), uma abordagem diferente da OpenAI, que cria seus modelos de forma mais generalista, com material disponibilizado na internet. A ideia é tornar acessíveis esses modelos para aplicações comerciais por meio de APIs.
“Parece contraintuitivo: sempre houve a ideia de que treinar modelos de IA em múltiplos idiomas poderia gerar ganhos de performance, pois há conhecimento compartilhado. Mas, ao treinar especificamente para português, passamos a verificar a melhoria de desempenho”, conta ele ao Estadão.
Nogueira passou a experimentar com treinamento especializado ainda em 2020, quando voltou de um doutorado na Universidade de Nova York. Além de trabalhar no laboratório de Yann LeCun, ganhador do Prêmio Turing (o “Nobel da computação”) em 2018 e principal cientista em IA da Meta, Nogueira tinha como orientador Kyunghyun Cho, um dos criadores do “mecanismo de atenção”, um dos pilares para a criação do Transformer, arquitetura revolucionária da IA. Nessa época, o brasileiro criou o Bertinbal, um modelo de IA focado em português e criado sobre o BERT, modelo amplo de linguagem do Google que foi padrão na indústria durante muitos anos.
O pesquisador disponibilizou publicamente o Bertinbau, baixado 10 milhões de vezes na plataforma HuggingFace.
Dois anos depois, ele conheceu o GPT 3.5, primeiro “cérebro” do ChatGPT, nove meses antes de a ferramenta da OpenAI se tornar pública. Nesse momento, ele viu a materialização de uma crença: textos produzidos por IA seriam o futuro - e ele só precisava garantir modelos fluentes em nosso idioma. Usando um crédito de US$ 1 milhão do Google para serviços em nuvem, ele passou a aprimorar com os chips especializados da gigante (chamados de TPUs) o Llama 1, um modelo de código aberto disponibilizado pela Meta.
O resultado foi o Sabiá, um modelo especializado em português com 65 bilhões de parâmetros, representações matemáticas de conexões entre palavras. Colocado em diferentes provas comparativas com outras IAs, o Sabiá teve performance inferior apenas ao GPT 4, que, estima-se, tem 1,76 trilhão de parâmetros (o número não é confirmado) e investimento maciço da OpenAI - o Sabiá, por exemplo, consegue “cantar” mais alto que o GPT 3.5 em provas de vestibular da Fuvest e da Unicamp.
“A gente sempre treina os nossos modelos a partir de algum grande modelo já existente, pois o treinamento inicial é muito caro. O segredo para a especialização em português é ter uma boa curadoria de dados”, explica ele.
O objetivo de Nogueira é que isso se torne a principal fonte de renda da companhia, que conta com outros três funcionários. Atualmente, a Maritaca é sustentada pelas consultorias de tecnologia que o seu fundador oferece - ele também é professor na Universidade Estadual de Campinas (Unicamp). Mas esse não é o único sonho dele.
O objetivo de Nogueira é transcender a Maritaca para fundar um laboratório de IA, aos moldes de como era a OpenAI em seu começo. “Se a Maritaca der certo, quero criar um instituto de pesquisa básica em IA sem fins lucrativos, gerando modelos de código aberto para o Brasil e também analisando impacto e funcionamento da IA. Tudo isso longe de pressões comerciais”, diz.
Os comentários são exclusivos para assinantes do Estadão.