THE NEW YORK TIMES - LIFE/STYLE - A paciente era uma mulher de 39 anos que havia chegado ao pronto-socorro do Beth Israel Deaconess Medical Center, em Boston. Seu joelho esquerdo estava doendo há vários dias. No dia anterior, ela teve uma febre de 39 graus. A febre tinha passado, mas ela ainda tinha calafrios. E seu joelho estava vermelho e inchado.
Qual era o diagnóstico?
Em uma sexta-feira recente e quente, a Dra. Megan Landon, uma médica residente, apresentou este caso real a uma sala cheia de estudantes de medicina e residentes. Eles foram reunidos para aprender uma habilidade que pode ser terrivelmente complicada de ensinar - pensar como um médico.
“Os médicos são péssimos em ensinar a outros médicos como pensamos”, disse o Dr. Adam Rodman, internista, historiador da medicina e organizador do evento no Beth Israel Deaconess.
Mas, desta vez, eles poderiam pedir ajuda a um especialista para chegar a um diagnóstico - o GPT-4, a última versão de um chatbot lançado pela empresa OpenAI.
A inteligência artificial está transformando muitos aspectos da prática da medicina, e alguns profissionais médicos estão usando essas ferramentas para ajudá-los no diagnóstico. Os médicos do Beth Israel Deaconess, um hospital universitário afiliado à Harvard Medical School, decidiram explorar como os chatbots poderiam ser usados - e mal utilizados - no treinamento de futuros médicos.
Instrutores como Rodman esperam que os estudantes de medicina possam recorrer ao GPT-4 e outros chatbots para algo semelhante ao que os médicos chamam de “consulta de calçada” - quando eles puxam um colega de lado e pedem uma opinião sobre um caso difícil. A ideia é usar um chatbot da mesma forma que os médicos se voltam para seus colegas e pedem sugestões e insights.
Por mais de um século, os médicos foram retratados como detetives que coletam pistas e as usam para encontrar o culpado. Mas médicos experientes realmente usam um método diferente - reconhecimento de padrões - para descobrir o que está errado. Na medicina, é chamado de roteiro da doença: sinais, sintomas e resultados de exames que os médicos reúnem para contar uma história coerente com base em casos semelhantes que eles conhecem ou já viram.
Se o roteiro da doença não ajudar, disse Rodman, os médicos recorrem a outras estratégias, como atribuir probabilidades a vários diagnósticos que possam se encaixar.
Finalmente, a tecnologia pode ajudar
Os pesquisadores tentaram por mais de meio século conceber programas de computador para fazer diagnósticos médicos, mas nada deu muito certo.
Os médicos dizem que o GPT-4 é diferente. “Ele criará algo notavelmente semelhante a um roteiro da doença”, disse Rodman. Dessa forma, acrescentou, “é fundamentalmente diferente de um mecanismo de busca”.
Rodman e outros médicos do Beth Israel Deaconess pediram ao GPT-4 possíveis diagnósticos em casos difíceis. Em um estudo divulgado no mês passado na revista médica JAMA, eles descobriram que ele se saiu melhor do que a maioria dos médicos em desafios de diagnóstico semanais publicados no The New England Journal of Medicine.
Mas, eles aprenderam, usar o programa é uma arte e existem armadilhas.
O Dr. Christopher Smith, diretor do programa de residência em medicina interna do centro médico, disse que os estudantes de medicina e residentes “estão definitivamente usando-o”. Mas, acrescentou, “se eles estão aprendendo alguma coisa é uma questão em aberto”.
A preocupação é que eles possam confiar na IA para fazer diagnósticos da mesma forma que confiariam em uma calculadora em seus telefones para resolver um problema de matemática. Isso, disse Smith, é perigoso.
Aprender, disse ele, envolve tentar descobrir as coisas: “É assim que retemos as coisas. Parte do aprendizado é essa luta. Se você terceirizar o aprendizado para o GPT, essa luta acaba.”
Na reunião, alunos e residentes se dividiram em grupos e tentaram descobrir o que havia de errado com a paciente com o joelho inchado. Eles então se voltaram para o GPT-4.
Os grupos tentaram abordagens diferentes.
Um deles usou o GPT-4 para fazer uma pesquisa na Internet, da mesma forma com que usamos o Google. O chatbot gerou uma lista de possíveis diagnósticos, incluindo trauma. Mas quando os membros do grupo pediram que ele explicasse seu raciocínio, o bot foi decepcionante, explicando sua escolha com a afirmação: “Trauma é uma causa comum de lesão no joelho”.
Outro grupo pensou em possíveis hipóteses e pediu ao GPT-4 para checá-las. A lista do chatbot coincidiu com a do grupo: infecções, incluindo a doença de Lyme; artrite, incluindo gota, um tipo de artrite que envolve cristais nas articulações; e traumas.
O GPT-4 adicionou a artrite reumatoide às principais possibilidades, embora ela não estivesse no topo da lista do grupo. A gota, os instrutores disseram mais tarde ao grupo, era improvável para essa paciente porque ela era jovem e do sexo feminino. E a artrite reumatoide provavelmente poderia ser descartada porque apenas uma articulação estava inflamada e por apenas alguns dias.
Como uma “consulta de calçada”, o GPT-4 parecia passar no teste ou, pelo menos, concordar com os alunos e residentes. Mas neste exercício, não ofereceu nenhum insight e nenhum roteiro da doença.
Um dos motivos pode ser que os alunos e residentes usaram o bot mais como um mecanismo de pesquisa do que como uma “consulta de calçada”.
Para usar o bot corretamente, disseram os instrutores, eles precisariam começar dizendo ao GPT-4 algo como: “Você é um médico atendendo uma mulher de 39 anos com dor no joelho”. Em seguida, eles precisariam listar seus sintomas antes de pedir um diagnóstico e seguir com perguntas sobre o raciocínio do bot, da mesma forma que fariam com um colega médico.
Isso, disseram os instrutores, é uma maneira de explorar o poder do GPT-4. Mas também é essencial reconhecer que os chatbots podem cometer erros e “viajar” - fornecer respostas sem base em fatos. Usá-los requer saber quando ele está incorreto.
“Não é errado usar essas ferramentas”, disse o Dr. Byron Crowe, médico de medicina interna do hospital. “Você só precisa usá-las da maneira certa.”
Ao final da sessão, os instrutores revelaram o verdadeiro motivo do joelho inchado da paciente.
Acabou sendo uma possibilidade que todos os grupos haviam considerado e que o GPT-4 havia proposto.
Ela tinha a doença de Lyme. /TRADUÇÃO LÍVIA BUELONI GONÇALVES
The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times
Os comentários são exclusivos para assinantes do Estadão.