Análise de voz orientada por inteligência artificial pode ajudar a identificar transtornos mentais?


Os primeiros testes foram promissores, mas problemas envolvendo preconceitos, privacidade e desconfiança quanto à ‘caixa preta’ dos algoritmos são possíveis armadilhas

Por Ingrid K. Williams

THE NEW YORK TIMES - LIFE/STYLE - Imagine um teste tão rápido e fácil quanto medir sua temperatura ou sua pressão arterial que consiga identificar com segurança um transtorno de ansiedade ou prever uma iminente recaída na depressão.

Os profissionais de saúde têm muitas ferramentas para avaliar a condição física de um paciente, mas nenhum biomarcador confiável - indicadores objetivos de estados médicos observados de fora do paciente - para avaliar a saúde mental.

Exercícios podem ajudar a diminuir sintomas de ansiedade e depressão.
Exercícios podem ajudar a diminuir sintomas de ansiedade e depressão. Foto: Gabriela Bhaskar/The New York Times
continua após a publicidade

Mas agora alguns pesquisadores de inteligência artificial (IA) acreditam que o som da sua voz pode ser a chave para entender seu estado mental - e a IA é perfeitamente adequada para detectar essas mudanças, que são difíceis, se não impossíveis, de perceber de outra maneira. O resultado é um conjunto de aplicativos e ferramentas online projetados para rastrear seu estado mental, bem como programas que fornecem avaliações de saúde mental em tempo real para provedores de telessaúde e operadores de call center.

Os psicólogos sabem há muito tempo que certos problemas de saúde mental podem ser detectados ouvindo não apenas o que uma pessoa diz, mas como ela diz, disse Maria Espinola, psicóloga e professora assistente da Faculdade de Medicina da Universidade de Cincinnati.

Os pacientes deprimidos, disse Espinola, “geralmente têm uma fala mais monótona, mais plana e mais mole. Eles também têm uma amplitude reduzida e um volume mais baixo. Fazem mais pausas. Param com mais frequência”.

continua após a publicidade

Pacientes com ansiedade sentem mais tensão no corpo, o que também pode mudar a forma como sua voz soa, disse ela. “Eles tendem a falar mais rápido. Têm mais dificuldade em respirar”.

Hoje esses tipos de traços vocais estão sendo aproveitados por pesquisadores de aprendizado de máquina para prever depressão e ansiedade, bem como outras condições mentais, como esquizofrenia e transtorno de estresse pós-traumático. A partir de gravações de voz curtas, o uso de algoritmos de aprendizagem profunda pode descobrir padrões e características adicionais que não são evidentes nem mesmo para especialistas capacitados.

“A tecnologia que estamos utilizando agora consegue identificar traços que podem ser significativos e que nem mesmo o ouvido humano consegue captar”, disse Kate Bentley, professora assistente da Harvard Medical School e psicóloga clínica do Hospital Geral de Massachusetts.

continua após a publicidade

“Estamos muito empolgadas para encontrar indicadores biológicos ou mais objetivos de diagnósticos psiquiátricos que vão além das formas mais subjetivas de avaliação que são tradicionalmente usadas, como testemunhos ou entrevistas avaliadas por médicos”, disse ela. Entre as outras pistas que os pesquisadores estão rastreando se encontram variações nos níveis de atividade, padrões de sono e dados de rede social.

Esses avanços tecnológicos chegam em um momento em que a necessidade de cuidados de saúde mental está particularmente aguda. De acordo com um relatório da Aliança Nacional de Doenças Mentais, 1 em cada 5 adultos nos Estados Unidos sofreu com alguma condição mental em 2020. E os números continuam subindo.

Para testar essa nova tecnologia, comecei baixando o aplicativo Mental Fitness, da Sonde Health, uma empresa de tecnologia em saúde, para ver se meus sentimentos de mal-estar eram sinal de algo sério ou se eu estava só meio desanimada. Descrito como “um produto de gravação e rastreamento do condicionamento mental por meio da voz”, o aplicativo gratuito me convidou a registrar meu primeiro check-in, uma entrada de diário verbal de 30 segundos, que classificaria minha saúde mental em uma escala de 1 a 100.

continua após a publicidade

Minha pontuação veio um minuto depois: 52, não muito bom. “Preste atenção”, alertou o aplicativo.

O aplicativo sinalizou que o nível de vivacidade detectado na minha voz estava notavelmente baixo. Será que minha fala estava monótona simplesmente porque eu estava tentando falar baixinho? Ou será que devo seguir as sugestões do aplicativo para melhorar meu estado mental, caminhando ou organizando meu espaço? (A primeira pergunta pode indicar uma das possíveis falhas do aplicativo: como consumidora, é difícil saber por que seus níveis vocais flutuam).

Mais tarde, quando estava me sentindo meio nervosa entre as entrevistas, testei outro programa de análise de voz, este focado em detectar níveis de ansiedade. O StressWaves Test é uma ferramenta online gratuita do conglomerado de saúde e seguros Cigna, desenvolvida em colaboração com a especialista em IA Ellipsis Health, para avaliar os níveis de estresse usando amostras de 60 segundos de fala gravada.

continua após a publicidade

“Por que você tem dificuldade de dormir à noite?”, era a pergunta do site. Depois de passar um minuto relatando minhas preocupações persistentes, o programa pontuou minha gravação e me enviou um laudo por e-mail: “Seu nível de estresse está moderado”. Ao contrário do aplicativo Sonde, o e-mail do Cigna não ofereceu dicas úteis de autoaperfeiçoamento.

Outras tecnologias adicionam uma camada potencialmente útil de interação humana, como a ferramenta da Kintsugi, empresa com sede em Berkeley, Califórnia, que recentemente levantou US$ 20 milhões em financiamento. Kintsugi é o nome da prática japonesa de consertar cerâmica quebrada com veios de ouro.

Fundada por Grace Chang e Rima Seiilova-Olson, que se uniram pela experiência compartilhada de lutar por acesso a cuidados de saúde mental, a Kintsugi desenvolve tecnologia para provedores de telessaúde e call center que ajudam a identificar pacientes que podem se beneficiar de mais apoio.

continua após a publicidade

Ao usar o programa de análise de voz da Kintsugi, o profissional de saúde pode, por exemplo, receber a sugestão de tirar um minuto extra para perguntar sobre o bem-estar de uma mãe atormentada com um bebê com cólica.

Uma preocupação com o desenvolvimento desses tipos de tecnologias de aprendizado de máquina é a questão do viés: garantir que os programas funcionem de forma igualitária para todos os pacientes, independentemente de idade, sexo, etnia, nacionalidade e outros critérios demográficos.

“Para que os modelos de aprendizado de máquina funcionem bem, você realmente precisa de um conjunto de dados muito grande, diversificado e robusto”, disse Chang, observando que a Kintsugi usou gravações de voz de todo o mundo, em muitos idiomas diferentes, para evitar esse problema em particular.

Outra grande preocupação neste campo nascente é a privacidade - particularmente, dados de voz, que podem ser usados para identificar indivíduos, disse Bentley.

E mesmo quando os pacientes concordam em ser gravados, a questão do consentimento às vezes é ambígua. Além de avaliar a saúde mental de um paciente, alguns programas de análise de voz usam as gravações para desenvolver e refinar seus próprios algoritmos.

Outro desafio, disse Bentley, é a possível desconfiança dos consumidores em relação ao aprendizado de máquina e aos chamados algoritmos de caixa-preta, que funcionam de maneiras que nem os próprios desenvolvedores conseguem explicar completamente - sobretudo quais aspectos eles usam para fazer previsões.

“Tem a criação do algoritmo e tem a compreensão do algoritmo”, disse o Dr. Alexander Young, diretor interino do Instituto Semel de Neurociência e Comportamento Humano e professor de psiquiatria da UCLA, ecoando as preocupações que muitos pesquisadores têm sobre IA e aprendizado de máquina em geral: há pouca ou nenhuma supervisão humana durante a fase de treinamento do programa. / TRADUÇÃO LÍVIA BUELONI GONÇALVES

The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times

THE NEW YORK TIMES - LIFE/STYLE - Imagine um teste tão rápido e fácil quanto medir sua temperatura ou sua pressão arterial que consiga identificar com segurança um transtorno de ansiedade ou prever uma iminente recaída na depressão.

Os profissionais de saúde têm muitas ferramentas para avaliar a condição física de um paciente, mas nenhum biomarcador confiável - indicadores objetivos de estados médicos observados de fora do paciente - para avaliar a saúde mental.

Exercícios podem ajudar a diminuir sintomas de ansiedade e depressão. Foto: Gabriela Bhaskar/The New York Times

Mas agora alguns pesquisadores de inteligência artificial (IA) acreditam que o som da sua voz pode ser a chave para entender seu estado mental - e a IA é perfeitamente adequada para detectar essas mudanças, que são difíceis, se não impossíveis, de perceber de outra maneira. O resultado é um conjunto de aplicativos e ferramentas online projetados para rastrear seu estado mental, bem como programas que fornecem avaliações de saúde mental em tempo real para provedores de telessaúde e operadores de call center.

Os psicólogos sabem há muito tempo que certos problemas de saúde mental podem ser detectados ouvindo não apenas o que uma pessoa diz, mas como ela diz, disse Maria Espinola, psicóloga e professora assistente da Faculdade de Medicina da Universidade de Cincinnati.

Os pacientes deprimidos, disse Espinola, “geralmente têm uma fala mais monótona, mais plana e mais mole. Eles também têm uma amplitude reduzida e um volume mais baixo. Fazem mais pausas. Param com mais frequência”.

Pacientes com ansiedade sentem mais tensão no corpo, o que também pode mudar a forma como sua voz soa, disse ela. “Eles tendem a falar mais rápido. Têm mais dificuldade em respirar”.

Hoje esses tipos de traços vocais estão sendo aproveitados por pesquisadores de aprendizado de máquina para prever depressão e ansiedade, bem como outras condições mentais, como esquizofrenia e transtorno de estresse pós-traumático. A partir de gravações de voz curtas, o uso de algoritmos de aprendizagem profunda pode descobrir padrões e características adicionais que não são evidentes nem mesmo para especialistas capacitados.

“A tecnologia que estamos utilizando agora consegue identificar traços que podem ser significativos e que nem mesmo o ouvido humano consegue captar”, disse Kate Bentley, professora assistente da Harvard Medical School e psicóloga clínica do Hospital Geral de Massachusetts.

“Estamos muito empolgadas para encontrar indicadores biológicos ou mais objetivos de diagnósticos psiquiátricos que vão além das formas mais subjetivas de avaliação que são tradicionalmente usadas, como testemunhos ou entrevistas avaliadas por médicos”, disse ela. Entre as outras pistas que os pesquisadores estão rastreando se encontram variações nos níveis de atividade, padrões de sono e dados de rede social.

Esses avanços tecnológicos chegam em um momento em que a necessidade de cuidados de saúde mental está particularmente aguda. De acordo com um relatório da Aliança Nacional de Doenças Mentais, 1 em cada 5 adultos nos Estados Unidos sofreu com alguma condição mental em 2020. E os números continuam subindo.

Para testar essa nova tecnologia, comecei baixando o aplicativo Mental Fitness, da Sonde Health, uma empresa de tecnologia em saúde, para ver se meus sentimentos de mal-estar eram sinal de algo sério ou se eu estava só meio desanimada. Descrito como “um produto de gravação e rastreamento do condicionamento mental por meio da voz”, o aplicativo gratuito me convidou a registrar meu primeiro check-in, uma entrada de diário verbal de 30 segundos, que classificaria minha saúde mental em uma escala de 1 a 100.

Minha pontuação veio um minuto depois: 52, não muito bom. “Preste atenção”, alertou o aplicativo.

O aplicativo sinalizou que o nível de vivacidade detectado na minha voz estava notavelmente baixo. Será que minha fala estava monótona simplesmente porque eu estava tentando falar baixinho? Ou será que devo seguir as sugestões do aplicativo para melhorar meu estado mental, caminhando ou organizando meu espaço? (A primeira pergunta pode indicar uma das possíveis falhas do aplicativo: como consumidora, é difícil saber por que seus níveis vocais flutuam).

Mais tarde, quando estava me sentindo meio nervosa entre as entrevistas, testei outro programa de análise de voz, este focado em detectar níveis de ansiedade. O StressWaves Test é uma ferramenta online gratuita do conglomerado de saúde e seguros Cigna, desenvolvida em colaboração com a especialista em IA Ellipsis Health, para avaliar os níveis de estresse usando amostras de 60 segundos de fala gravada.

“Por que você tem dificuldade de dormir à noite?”, era a pergunta do site. Depois de passar um minuto relatando minhas preocupações persistentes, o programa pontuou minha gravação e me enviou um laudo por e-mail: “Seu nível de estresse está moderado”. Ao contrário do aplicativo Sonde, o e-mail do Cigna não ofereceu dicas úteis de autoaperfeiçoamento.

Outras tecnologias adicionam uma camada potencialmente útil de interação humana, como a ferramenta da Kintsugi, empresa com sede em Berkeley, Califórnia, que recentemente levantou US$ 20 milhões em financiamento. Kintsugi é o nome da prática japonesa de consertar cerâmica quebrada com veios de ouro.

Fundada por Grace Chang e Rima Seiilova-Olson, que se uniram pela experiência compartilhada de lutar por acesso a cuidados de saúde mental, a Kintsugi desenvolve tecnologia para provedores de telessaúde e call center que ajudam a identificar pacientes que podem se beneficiar de mais apoio.

Ao usar o programa de análise de voz da Kintsugi, o profissional de saúde pode, por exemplo, receber a sugestão de tirar um minuto extra para perguntar sobre o bem-estar de uma mãe atormentada com um bebê com cólica.

Uma preocupação com o desenvolvimento desses tipos de tecnologias de aprendizado de máquina é a questão do viés: garantir que os programas funcionem de forma igualitária para todos os pacientes, independentemente de idade, sexo, etnia, nacionalidade e outros critérios demográficos.

“Para que os modelos de aprendizado de máquina funcionem bem, você realmente precisa de um conjunto de dados muito grande, diversificado e robusto”, disse Chang, observando que a Kintsugi usou gravações de voz de todo o mundo, em muitos idiomas diferentes, para evitar esse problema em particular.

Outra grande preocupação neste campo nascente é a privacidade - particularmente, dados de voz, que podem ser usados para identificar indivíduos, disse Bentley.

E mesmo quando os pacientes concordam em ser gravados, a questão do consentimento às vezes é ambígua. Além de avaliar a saúde mental de um paciente, alguns programas de análise de voz usam as gravações para desenvolver e refinar seus próprios algoritmos.

Outro desafio, disse Bentley, é a possível desconfiança dos consumidores em relação ao aprendizado de máquina e aos chamados algoritmos de caixa-preta, que funcionam de maneiras que nem os próprios desenvolvedores conseguem explicar completamente - sobretudo quais aspectos eles usam para fazer previsões.

“Tem a criação do algoritmo e tem a compreensão do algoritmo”, disse o Dr. Alexander Young, diretor interino do Instituto Semel de Neurociência e Comportamento Humano e professor de psiquiatria da UCLA, ecoando as preocupações que muitos pesquisadores têm sobre IA e aprendizado de máquina em geral: há pouca ou nenhuma supervisão humana durante a fase de treinamento do programa. / TRADUÇÃO LÍVIA BUELONI GONÇALVES

The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times

THE NEW YORK TIMES - LIFE/STYLE - Imagine um teste tão rápido e fácil quanto medir sua temperatura ou sua pressão arterial que consiga identificar com segurança um transtorno de ansiedade ou prever uma iminente recaída na depressão.

Os profissionais de saúde têm muitas ferramentas para avaliar a condição física de um paciente, mas nenhum biomarcador confiável - indicadores objetivos de estados médicos observados de fora do paciente - para avaliar a saúde mental.

Exercícios podem ajudar a diminuir sintomas de ansiedade e depressão. Foto: Gabriela Bhaskar/The New York Times

Mas agora alguns pesquisadores de inteligência artificial (IA) acreditam que o som da sua voz pode ser a chave para entender seu estado mental - e a IA é perfeitamente adequada para detectar essas mudanças, que são difíceis, se não impossíveis, de perceber de outra maneira. O resultado é um conjunto de aplicativos e ferramentas online projetados para rastrear seu estado mental, bem como programas que fornecem avaliações de saúde mental em tempo real para provedores de telessaúde e operadores de call center.

Os psicólogos sabem há muito tempo que certos problemas de saúde mental podem ser detectados ouvindo não apenas o que uma pessoa diz, mas como ela diz, disse Maria Espinola, psicóloga e professora assistente da Faculdade de Medicina da Universidade de Cincinnati.

Os pacientes deprimidos, disse Espinola, “geralmente têm uma fala mais monótona, mais plana e mais mole. Eles também têm uma amplitude reduzida e um volume mais baixo. Fazem mais pausas. Param com mais frequência”.

Pacientes com ansiedade sentem mais tensão no corpo, o que também pode mudar a forma como sua voz soa, disse ela. “Eles tendem a falar mais rápido. Têm mais dificuldade em respirar”.

Hoje esses tipos de traços vocais estão sendo aproveitados por pesquisadores de aprendizado de máquina para prever depressão e ansiedade, bem como outras condições mentais, como esquizofrenia e transtorno de estresse pós-traumático. A partir de gravações de voz curtas, o uso de algoritmos de aprendizagem profunda pode descobrir padrões e características adicionais que não são evidentes nem mesmo para especialistas capacitados.

“A tecnologia que estamos utilizando agora consegue identificar traços que podem ser significativos e que nem mesmo o ouvido humano consegue captar”, disse Kate Bentley, professora assistente da Harvard Medical School e psicóloga clínica do Hospital Geral de Massachusetts.

“Estamos muito empolgadas para encontrar indicadores biológicos ou mais objetivos de diagnósticos psiquiátricos que vão além das formas mais subjetivas de avaliação que são tradicionalmente usadas, como testemunhos ou entrevistas avaliadas por médicos”, disse ela. Entre as outras pistas que os pesquisadores estão rastreando se encontram variações nos níveis de atividade, padrões de sono e dados de rede social.

Esses avanços tecnológicos chegam em um momento em que a necessidade de cuidados de saúde mental está particularmente aguda. De acordo com um relatório da Aliança Nacional de Doenças Mentais, 1 em cada 5 adultos nos Estados Unidos sofreu com alguma condição mental em 2020. E os números continuam subindo.

Para testar essa nova tecnologia, comecei baixando o aplicativo Mental Fitness, da Sonde Health, uma empresa de tecnologia em saúde, para ver se meus sentimentos de mal-estar eram sinal de algo sério ou se eu estava só meio desanimada. Descrito como “um produto de gravação e rastreamento do condicionamento mental por meio da voz”, o aplicativo gratuito me convidou a registrar meu primeiro check-in, uma entrada de diário verbal de 30 segundos, que classificaria minha saúde mental em uma escala de 1 a 100.

Minha pontuação veio um minuto depois: 52, não muito bom. “Preste atenção”, alertou o aplicativo.

O aplicativo sinalizou que o nível de vivacidade detectado na minha voz estava notavelmente baixo. Será que minha fala estava monótona simplesmente porque eu estava tentando falar baixinho? Ou será que devo seguir as sugestões do aplicativo para melhorar meu estado mental, caminhando ou organizando meu espaço? (A primeira pergunta pode indicar uma das possíveis falhas do aplicativo: como consumidora, é difícil saber por que seus níveis vocais flutuam).

Mais tarde, quando estava me sentindo meio nervosa entre as entrevistas, testei outro programa de análise de voz, este focado em detectar níveis de ansiedade. O StressWaves Test é uma ferramenta online gratuita do conglomerado de saúde e seguros Cigna, desenvolvida em colaboração com a especialista em IA Ellipsis Health, para avaliar os níveis de estresse usando amostras de 60 segundos de fala gravada.

“Por que você tem dificuldade de dormir à noite?”, era a pergunta do site. Depois de passar um minuto relatando minhas preocupações persistentes, o programa pontuou minha gravação e me enviou um laudo por e-mail: “Seu nível de estresse está moderado”. Ao contrário do aplicativo Sonde, o e-mail do Cigna não ofereceu dicas úteis de autoaperfeiçoamento.

Outras tecnologias adicionam uma camada potencialmente útil de interação humana, como a ferramenta da Kintsugi, empresa com sede em Berkeley, Califórnia, que recentemente levantou US$ 20 milhões em financiamento. Kintsugi é o nome da prática japonesa de consertar cerâmica quebrada com veios de ouro.

Fundada por Grace Chang e Rima Seiilova-Olson, que se uniram pela experiência compartilhada de lutar por acesso a cuidados de saúde mental, a Kintsugi desenvolve tecnologia para provedores de telessaúde e call center que ajudam a identificar pacientes que podem se beneficiar de mais apoio.

Ao usar o programa de análise de voz da Kintsugi, o profissional de saúde pode, por exemplo, receber a sugestão de tirar um minuto extra para perguntar sobre o bem-estar de uma mãe atormentada com um bebê com cólica.

Uma preocupação com o desenvolvimento desses tipos de tecnologias de aprendizado de máquina é a questão do viés: garantir que os programas funcionem de forma igualitária para todos os pacientes, independentemente de idade, sexo, etnia, nacionalidade e outros critérios demográficos.

“Para que os modelos de aprendizado de máquina funcionem bem, você realmente precisa de um conjunto de dados muito grande, diversificado e robusto”, disse Chang, observando que a Kintsugi usou gravações de voz de todo o mundo, em muitos idiomas diferentes, para evitar esse problema em particular.

Outra grande preocupação neste campo nascente é a privacidade - particularmente, dados de voz, que podem ser usados para identificar indivíduos, disse Bentley.

E mesmo quando os pacientes concordam em ser gravados, a questão do consentimento às vezes é ambígua. Além de avaliar a saúde mental de um paciente, alguns programas de análise de voz usam as gravações para desenvolver e refinar seus próprios algoritmos.

Outro desafio, disse Bentley, é a possível desconfiança dos consumidores em relação ao aprendizado de máquina e aos chamados algoritmos de caixa-preta, que funcionam de maneiras que nem os próprios desenvolvedores conseguem explicar completamente - sobretudo quais aspectos eles usam para fazer previsões.

“Tem a criação do algoritmo e tem a compreensão do algoritmo”, disse o Dr. Alexander Young, diretor interino do Instituto Semel de Neurociência e Comportamento Humano e professor de psiquiatria da UCLA, ecoando as preocupações que muitos pesquisadores têm sobre IA e aprendizado de máquina em geral: há pouca ou nenhuma supervisão humana durante a fase de treinamento do programa. / TRADUÇÃO LÍVIA BUELONI GONÇALVES

The New York Times Licensing Group - Todos os direitos reservados. É proibido todo tipo de reprodução sem autorização por escrito do The New York Times