A criação dos modelos de IA em massa atuais pode custar centenas de milhões de dólares e as projeções sugerem que esse valor pode chegar a impressionantes bilhões de dólares em poucos anos. Grande parte dessa despesa é para o poder de computação de chips especializados - normalmente GPUs da Nvidia, das quais dezenas de milhares podem ser necessárias, custando até US$ 30 mil cada.
Mas as empresas que treinam modelos de IA ou que ajustam os modelos existentes para melhorar o desempenho em tarefas específicas também enfrentam outro custo crescente e muitas vezes negligenciado: a rotulagem de dados. Esse é um processo meticuloso no qual os modelos de IA generativa são treinados com dados que são afixados com tags para que o modelo possa reconhecer e interpretar padrões.
Leia também
A rotulagem de dados tem sido usada há muito tempo para desenvolver modelos de IA para carros autônomos, por exemplo. Uma câmera captura imagens de pedestres, placas de rua, carros e semáforos e anotadores humanos rotulam as imagens com palavras como “pedestre”, “caminhão” ou “placa de pare”. O processo de trabalho intensivo também levantou preocupações éticas. Após o lançamento do ChatGPT em 2022, a OpenAI foi amplamente criticada por terceirizar o trabalho de rotulagem de dados que ajudou a tornar o chatbot menos tóxico para quenianos que ganhavam menos de US$ 2 por hora.
Os modelos amplos de linguagem (LLMs) atuais passam por um exercício relacionado à rotulagem de dados chamado Feedback Humano de Aprendizado por Reforço, no qual os seres humanos fornecem feedback qualitativo ou classificações sobre o que o modelo produz. Essa é uma fonte significativa de aumento de custos, assim como o esforço envolvido na rotulagem de dados privados que as empresas desejam incorporar em seus modelos de IA, como informações de clientes ou dados corporativos internos.
Além disso, a rotulagem de dados altamente técnicos e de nível especializado em áreas como jurídica, financeira e de saúde está aumentando as despesas. Isso ocorre porque algumas empresas estão contratando médicos, advogados, PhDs e cientistas de alto custo para rotular determinados dados ou terceirizar o trabalho para empresas terceirizadas, como a Scale AI, que recentemente garantiu um financiamento de US$ 1 bilhão de cair o queixo, já que seu CEO previu um forte crescimento da receita até o final do ano.
“Agora você precisa de um advogado para rotular as coisas, [o que é] um uso absurdo de horas jurídicas”, disse William Falcon, CEO da plataforma de desenvolvimento de IA Lightning AI. “Qualquer coisa de alto risco” requer rotulagem de nível especializado, explicou ele. “Um bate-papo com um ‘melhor amigo virtual’ não é de alto risco, mas fornecer consultoria jurídica é.”
Alex Ratner, CEO da startup de rotulagem de dados Snorkel AI, diz que os clientes corporativos podem gastar milhões de dólares em rotulagem de dados e outras tarefas de dados, o que pode consumir 80% do tempo e do orçamento de IA. Com o tempo, os dados também precisam ser rotulados novamente para permanecerem atualizados, acrescentou.
Matt Shumer, CEO e cofundador da startup de assistentes de IA Otherside AI, concordou que o ajuste fino dos LLMs ficou caro. “Nos últimos dois anos, passamos de dados de nível de ensino fundamental para dados de nível de ensino médio, faculdade e, agora, especialista”, disse ele. “Obviamente, isso não é barato.”
Matt Shumer, CEO e cofundador da Otherside AI
Isso pode criar problemas orçamentários para as startups de tecnologia que estão construindo em áreas importantes como a saúde. Neal Shah, CEO da CareYaYa, uma plataforma para cuidadores de idosos, diz que sua empresa recebeu um subsídio da Universidade Johns Hopkins para construir “o primeiro treinador de cuidadores de IA do mundo para pacientes com demência”, mas que os custos de rotulagem de dados estão “nos consumindo vivos”.
O custo, segundo ele, disparou 40% no último ano devido às informações especializadas necessárias de gerontologistas, especialistas em demência e cuidadores veteranos. Ele está trabalhando para reduzir esses custos, recrutando estudantes da área de saúde e professores universitários para fazer a rotulagem.
Bob Rogers, CEO da Oii.ai, uma empresa de ciência de dados especializada em modelagem de cadeia de suprimentos, disse que já viu projetos de rotulagem de dados que custam milhões. Plataformas como a BeeKeeper AI, segundo ele, podem ajudar a reduzir os custos, permitindo que várias empresas compartilhem especialistas, dados e algoritmos sem expor seus dados privados às outras.
Kjell Carlsson, chefe de estratégia de IA do Domino Data Lab, acrescentou que algumas empresas estão reduzindo os custos usando dados “sintéticos” - ou dados gerados pela própria IA - para automatizar, pelo menos parcialmente, a coleta e a rotulagem de dados. Em alguns casos, os modelos podem automatizar totalmente qualquer rotulagem de dados. Por exemplo, as empresas biofarmacêuticas estão treinando modelos de IA generativa para desenvolver proteínas sintéticas para doenças como câncer colo-retal, diabetes e doenças cardíacas. As empresas realizam experimentos automaticamente com base nos resultados dos modelos de IA generativa, que fornecem novos dados de treinamento com rótulos.
O resultado final, entretanto, é que a rotulagem de dados pode ser cara e demorada, mas vale a pena. “A rotulagem de dados é uma tarefa árdua”, disse Shah, da CareYaYa. “Mas a possível recompensa é enorme.”
Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.
c.2024 Fortune Media IP Limited
Distribuído por The New York Times Licensing Group