Rodrigo Nogueira, um dos principais nomes da inteligência artificial (IA) do Brasil, se tornou uma referência no País após anos de pesquisa em grandes modelos de linguagem (LLM) e desenvolvimento e ajustes de IAs focadas no português brasileiro. Com doutorado pela Universidade de Nova York, Nogueira teve seu visto negado para entrar nos Estados Unidos, onde daria uma palestra na Universidade Harvard, e acredita que foi barrado devido à sua área de atuação, que se tornou um campo de disputa global entre as principais potências do mundo.
Para a reportagem do Estadão, a embaixada americana no Brasil e o consulado dos EUA em São Paulo decidiram não comentar o caso. “Por política do governo dos Estados Unidos, não comentamos sobre casos individuais de visto”, diz a nota enviada à reportagem pela assessoria de imprensa da embaixada e consulados dos Estados Unidos no Brasil.

Nascido em Itapira, SP, Rodrigo Nogueira, hoje com 38 anos, se formou em engenharia elétrica e eletrônica pela Universidade Estadual de Campinas (Unicamp), com mestrado em engenharia da computação pela mesma universidade. Em 2014, o pesquisador iniciou o doutorado na Universidade de Nova York (NYU), ainda com foco em engenharia da computação — ele atuava no laboratório de Yann LeCun, ganhador do Prêmio Turing (o “Nobel da computação”) em 2018 e principal cientista em IA da Meta.
Durante o período de 2014 a 2019, Nogueira teve como orientador Kyunghyun Cho, um dos criadores do “mecanismo de atenção”, um dos pilares para a criação do Transformer, arquitetura revolucionária da IA que deu origem ao ChatGPT, da OpenAI. Nessa época, o brasileiro criou o Bertinbal, um modelo de IA focado em português e criado sobre o BERT, grande modelo de linguagem do Google que foi padrão na indústria durante muitos anos.
O pesquisador disponibilizou publicamente o Bertinbau, baixado 10 milhões de vezes na plataforma HuggingFace.
Nogueira passou a experimentar com treinamento especializado de IAs ainda em 2020, quando voltou do doutorado nos EUA. Dois anos depois, ele conheceu o GPT 3.5, primeiro “cérebro” do ChatGPT, nove meses antes de a ferramenta da OpenAI se tornar pública. Nesse momento, ele viu a materialização de uma crença: textos produzidos por IA seriam o futuro - e ele só precisava garantir modelos fluentes em nosso idioma. Usando um crédito de US$ 1 milhão do Google para serviços em nuvem, ele passou a aprimorar com os chips especializados da gigante (chamados de TPUs) o Llama 1, um modelo de código aberto disponibilizado pela Meta.
O resultado foi o Sabiá, um modelo especializado em português com 65 bilhões de parâmetros, representações matemáticas de conexões entre palavras. Colocado em diferentes provas comparativas com outras IAs, o Sabiá teve performance inferior apenas ao GPT-4, que, estima-se, tem 1,76 trilhão de parâmetros (o número não é confirmado) e investimento maciço da OpenAI - na época, o Sabiá, por exemplo, conseguiu “cantar” mais alto que o GPT 3.5 em provas de vestibular da Fuvest e da Unicamp.
Hoje o Sabiá já se encontra em sua terceira geração, o Sabiá 3, e também tem modelos menores e ajustados a diferentes necessidades, como fazem OpenAI, Google e Anthropic com seus respectivos modelos, GPT, Gemini e Claude. O MariTalk, o chatbot que roda o Sabiá (como o ChatGPT faz com o GPT) também já consegue realizar buscas na web, como fazem os concorrentes americanos.
“A gente sempre treina os nossos modelos a partir de algum grande modelo já existente, pois o treinamento inicial é muito caro. O segredo para a especialização em português é ter uma boa curadoria de dados”, explica ele.
Fundada em Campinas (SP) em outubro de 2022, a Maritaca acredita no treinamento para idiomas específicos de grandes modelos de linguagem (LLM), uma abordagem diferente da OpenAI, que cria seus modelos de forma mais generalista, com material disponibilizado na internet. A ideia é tornar acessíveis esses modelos para aplicações comerciais por meio de APIs.
Atualmente, a Maritaca é sustentada pelo aporte de investidores e pelo próprio faturamento. A startup possui 10 funcionários, a maior parte ligada à Unicamp e à USP - Nogueira também foi professor voluntário na Unicamp -, e tem mais de 100 clientes no Brasil, incluindo o JusBrasil, que lançou nesta quarta, 19, uma ferramenta com tecnologia da startup. Outros clientes não revelado por ele estão hospitais e bancos.
Leia também
Atuação internacional
Além da atuação em IA, o pesquisador acredita que uma viagem para Taiwan em 2023 jogou contra a provação de seu visto para os EUA. Nogueira participa de congressos de tecnologia desde 2014 e já esteve em, pelo menos, 10 países diferentes para apresentar seu trabalho ou participar de discussões relacionadas à sua área de estudo.
“Eu fiz a entrevista no consulado em São Paulo no dia 27 de fevereiro. Estava tudo normal até que eu falei que trabalhava com inteligência artificial. Então, naquele momento, tudo mudou. Parece que chegou uma nuvem de chuva na conversa”, conta ele ao Estadão. “Contei que trabalhava com chatbots e que a maioria dos meus clientes são brasileiros. Também precisei explicar sobre uma viagem que fiz a Taiwan em 2023, onde participei da conferência Sigir, focada em buscas”, conta.

A Sigir é a conferência do Grupo de Interesse Especial em Recuperação de Informações da Association for Computing Machinery, uma associação global que reúne cientistas de todo o mundo focados em buscas de informação, como a que o Google faz em seu principal mecanismo. A edição em que Nogueira participou aconteceu em julho de 2023, em Taiwan. A edição de 2025, marcada para o começo de julho, acontecerá em Pádua, na Itália.
Foi nessa conferência que Nogueira apresentou o artigo intitulado “A Personalized Dense Retrieval Framework for Unified Information Access” (”Uma estrutura de recuperação densa e personalizada para acesso unificado a informações”, em tradução literal). O trabalho, que contou com outros quatro cientistas, apresenta um novo modelo de estrutura de recuperação densa genérica - tipo de IA baseada em aprendizado profundo (deep learning) usada para recuperar dados de extensos bancos de dados. De acordo com a pesquisa, o \framework, ferramenta desenvolvida pelo grupo, apresenta uma nova flexibilidade para o ramo, agilizando e integrando mais elementos simultâneos para as pesquisas.
Na época, Nogueira também apresentou no evento um tutorial sobre representações neuro-simbólicas para recuperação de informação. No trabalho, o fundador da Maritaca.ai afirma que a combinação de métodos neurais, como LLMs, com abordagens simbólicas, como anotações semânticas, pode otimizar tarefas de recuperação. Inteligência artificial neurossimbólica é um campo visto como promissor na busca por sistemas ainda mais poderosos e capazes.
Evento em Harvard
Nogueira diz que no dia da entrevista o visto foi aprovado, mas que no dia seguinte recebeu uma comunicação do consulado exigindo o motivo da viagem para Taiwan e a pesquisa realizada na Universidade de Nova York.
“No dia 10 de março, o consulado me pediu o currículo completo, uma cópia da minha tese nos EUA, cópias de todos os artigos que já publiquei e o histórico de viagens”, conta. “Mandei tudo, exceto pela cópia dos artigos. Tenho mais de 100 artigos publicados, então mandei uma lista e onde poderiam ser acessados”. Nogueira conta que no dia 12 recebeu uma comunicação que afirma que teve o visto negado e que não poderia se candidatar a um novo visto pelos próximos 12 meses. Ele afirma que teve o visto negado sob a sessão 221 (g), que diz que, embora o visto tenha sido negado, os documentos permanecem sob análise, o que pode resultar numa reversão da decisão inicial. No entanto, o consulado não estabelece quando ou se vai oferecer uma nova resposta.
Com isso, o pesquisador não poderá comparecer ao Painel “Inteligência Artificial no Brasil”, organizado em Harvard por professores brasileiros na instituição americana e apoiado pelo Centro de Desenvolvimento Internacional de Harvard, Centro de Pesquisa em Computação e Sociedade de Harvard, Weatherhead Center for International Affairs, Harvard Data Science Initiative e o Consulado Geral do Brasil em Boston. A reportagem entrou em contato com os organizadores do evento, mas não teve resposta.