Quando lhe perguntei sobre o futuro dos avatares de inteligência artificial na medicina, Nova se mostrou otimista – e não sem razão. Como “embaixadora de marca” da Soul Machines – que tem sede em Auckland, centro da indústria de efeitos visuais da Nova Zelândia – seu trabalho é destacar as experiências “personalizadas e interativas” que esses avatares vão proporcionar em consultas virtuais e reabilitações pós-operatórias. Ao explicar tudo isso na nossa conversa online, ela me olha nos olhos, reage ao que digo fazendo sim com a cabeça e abrindo sorrisos de aprovação. Ao ouvir que eu não estou me sentindo muito bem desde minha última refeição, ela diz “Oh, não!” com cara de preocupada e sugere chá de gengibre ou algum medicamento vendido sem receita. A fita azul que ela usa no ombro direito, ela me conta, é um “símbolo da minha existência como pessoa digital e da minha conexão com a Soul Machines, a empresa que me criou”.
Greg Cross, chefe de Nova na Soul Machines, diz que a capacidade de conversação de Nova vem de dez anos de pesquisa em uma modelagem cognitiva que procura capturar funções como aprendizagem e resposta emocional. O rosto dela transmite essas respostas por meio de um software que descende daquele usado em personagens de filmes gerados por computador.
Parte do que ela diz vem de uma versão do ChatGPT da Openai, sistema alimentado por um grande modelo de linguagem (LLM, na sigla em inglês). Cross acredita que esses avatares vão ser um jeito cada vez mais importante de as empresas se comunicarem com as pessoas – e que eles se revelarão irresistivelmente úteis para os sistemas de saúde, onde a necessidade de algo como o toque humano cada vez mais supera a disponibilidade de humanos com formação para proporcionar esse toque profissionalmente.
Diga onde dói
Faz tempo que as pessoas adoram fazer perguntas sobre saúde na internet. O mecanismo de busca do Google lida com cerca de 1 bilhão delas por dia. Instituições de caridade médicas, grupos de pacientes, empresas farmacêuticas e prestadores de cuidados de saúde disponibilizam toneladas de informações, mas isso não é nem de longe garantia de que as pessoas que consultam o “Dr. Google” vão sair bem informadas.
O interesse em evidências confiáveis levou ao desenvolvimento de chatbots personalizados, projetados para explicar questões de saúde pública aos pacientes e ajudá-los a descobrir o que seus sintomas podem significar. Florence foi criada pela Organização Mundial da Saúde (OMS), Google e Amazon Web Services durante a pandemia de covid-19 para combater as notícias falsas e a desinformação. Desde então, sua base de conhecimento se expandiu e hoje abrange tabagismo, saúde mental e alimentação saudável. Mas ela não chega a ser um exemplo de bom papo.
A empresa alemã Ada Health oferece um chatbot de verificação de sintomas que consulta um banco de dados cuidadosamente estruturado com milhares de informações rigorosamente selecionadas por médicos. O bot usa as respostas do paciente para gerar uma sequência de perguntas e, em seguida, apresenta uma lista de possíveis diagnósticos, com a probabilidade de cada um. Lançado em 2016, tem 13 milhões de usuários, cerca de um terço deles na Índia, Ásia e África.
O “mecanismo de raciocínio probabilístico” central da Ada não é tão complexo quanto os LLMs lançados recentemente. E é um pouco trabalhoso de usar. Mas também é confiável – nada de alucinações – e, o que é crucial, “explicável”: quando a Ada calcula as probabilidades dos diagnósticos, é possível descobrir exatamente como ela as calculou. Essa confiabilidade e explicabilidade permitiram que ela obtivesse aprovação regulatória como dispositivo médico na Alemanha e em muitos outros países.
Leia também
Qualquer pessoa que tente conseguir aprovação para um sistema parecido com o ChatGPT, baseado em LLMs, vai enfrentar enormes obstáculos devido à origem de seus dados, à confiabilidade e reprodutibilidade de suas respostas e à explicabilidade de seu processo. Como indaga Hugh Harvey, da Hardian Health: “Se as perguntas são essencialmente infinitas e as respostas são essencialmente infinitas, como provar que é seguro?”.
Isso não significa que os LLMs não tenham nada a dizer sobre saúde. Muito pelo contrário. A internet está repleta de afirmações sobre a capacidade do ChatGPT de diagnosticar problemas médicos desconcertantes, analisar exames de sangue ou descobrir porque um especialista está pedindo certos exames. Como os enormes conjuntos de informações com os quais são treinados incluem textos médicos, os LLMs conseguem responder de forma convincente a perguntas médicas bastante complicadas, mesmo que não tenham sido deliberadamente treinados para isso.
Em 2023, pesquisadores avaliaram que o desempenho do ChatGPT no exame de Licenciamento Médico dos Estados Unidos era equivalente ao de um estudante do terceiro ano de medicina. Um software se sair tão bem assim teria sido mais ou menos impensável cinco anos atrás.
Em um estudo recente, uma versão do ChatGPT baseada no GPT4, o maior modelo da Openai aberto a acesso público, superou as respostas dadas por candidatos humanos em uma prova do conselho de neurologia. Mesmo quando o modelo deu respostas erradas, foi com muita confiança – o que é ruim para um dispositivo médico, mas não incomum entre os clínicos.
Dada essa facilidade, não há dúvida de que os conselhos médicos que as pessoas recebem dos LLMs possam ser precisos e adequados. Mas isso não significa que vai ser sempre assim: alguns dos conselhos provavelmente estarão errados e serão perigosos. Os desafios regulatórios implícitos na opacidade dos LLMs levaram muitos a concluir que hoje é impossível regular esses modelos de IA para áreas onde os erros possam ser letais, como o diagnóstico.
Alguns profissionais do setor estão procurando meios intermediários pelos quais alguns de seus atributos possam ser aplicados com segurança em outros tipos de trabalho.
Claire Novorol, fundadora da Ada Health, diz que o ponto forte dos LLMs é sua capacidade de utilizar a fala cotidiana: isso lhes permite obter mais informações dos pacientes do que um questionário comum. Esta é uma das razões pelas quais ela e seus colegas estão tentando ampliar a abordagem probabilística da Ada com um LLM. Quando aplicado no contexto certo, diz ela, suas capacidades possibilitam avaliações melhores, mais amplas e mais granulares dos sintomas e das necessidades de saúde. Uma técnica que eles e outros estão experimentando é a “geração aumentada por recuperação”, que permite aos LLMs extrair respostas de uma fonte verificada de dados externos.
Outra abordagem é utilizar LLMs que recorrem a fontes médicas verificadas como conselheiros para profissionais de saúde, e não para o público em geral.
O Google desenvolveu um LLM que foi aprimorado com dados médicos para fornecer suporte no diagnóstico de casos difíceis. A Hippocratic AI, uma startup do Vale do Silício, se dedica à construção de novos LLMs específicos para a área da saúde. A empresa diz que supera o GPT4 em todos os exames médicos e testes de certificação, e recentemente arrecadou mais 50 milhões de dólares – apesar de destacar em seu website a crença inequívoca de que “hoje os LLMs não são suficientemente seguros para o diagnóstico clínico”.
Os investidores parecem ver seus planos para dar apoio a profissionais e fornecer aconselhamento a pacientes como bastante promissores por si só, ou como um caminho para algo melhor.
Leia também
É meio embaraçoso
Existe também um certo otimismo em torno dos relacionamentos que as pessoas criam com os LLMs. Essas conexões podem ser úteis no tratamento de doenças de longa duração ou no apoio psicológico para alguns problemas de saúde mental.
Na Nigéria, a empresa de assistência médica mDoc criou um serviço para celulares alimentado pelo ChatGPT para oferecer aconselhamento em saúde a pessoas que vivem com doenças crônicas, como diabetes ou pressão alta.
Nenhum desses sistemas oferece a empatia de um interlocutor humano. Mas pelo menos um estudo descobriu que pessoas que fizeram perguntas sobre saúde preferiram as respostas do ChatGPT às dos profissionais licenciados, tanto pela qualidade quanto pela empatia.
Relatos sobre as relações que algumas pessoas estabelecem com serviços de IA como o Replika, um chatbot feito pela Luka, de São Francisco, permitem imaginar um futuro em que os bots de amizade vão convergir com os de saúde. Os chatbots originalmente criados para relacionamentos que depois receberam uma capacidade adicional de fornecer conselhos de saúde podem competir com os chatbots criados para a medicina, cujos designers estão melhorando suas habilidades sociais.
Existem também algumas qualidades humanas das quais os sistemas de IA podem se livrar. Uma delas é o julgamento moral. Quando se trata de saúde sexual, as pessoas muitas vezes não procuram ajuda porque preferem evitar a conversa que possibilitaria essa ajuda.
Caroline Govathson, pesquisadora da Universidade Wits, na África do Sul, vem fazendo testes com um chatbot para melhorar a precisão das avaliações de risco de HIV. Ela descobriu que as pessoas parecem achar mais fácil revelar seu histórico sexual a um chatbot do que a um enfermeiro humano.
Alain Labrique, diretor de saúde digital e inovação da OMS, vê nas próximas versões de Florence “a oportunidade de criar uma interface realista, onde você poderia reduzir ainda mais a barreira para as pessoas que procuram informações, sejam adolescentes em busca de orientação sobre sexo seguro e planejamento familiar, ou pessoas querendo saber mais sobre doenças respiratórias”.
Dito isto, o Dr. Labrique e outros estão preocupados com os abusos da tecnologia: a ideia do que uma IA sofisticada poderia fazer para espalhar a desinformação sobre saúde pública, diz ele, não o “deixa dormir à noite”.
Além das preocupações com a qualidade da informação que sai, há também preocupações sobre o que pode acontecer com a informação que entra, tanto em termos de garantir que os dados de treinamento sejam devidamente anonimizados, quanto de assegurar que as conversas com chatbots permaneçam confidenciais. / TRADUÇÃO DE RENATO PRELORENTZOU
Os comentários são exclusivos para assinantes do Estadão.