IA do Google revolucionou a ciência das proteínas, mas não ‘zerou o jogo’; entenda


Há três anos, o AlphaFold realizou o maior avanço da inteligência artificial na ciência até o momento

Por Yasemin Saplakoglu
Atualização:

Em dezembro de 2020, quando os bloqueios da pandemia impossibilitaram reuniões presenciais, centenas de cientistas da computação se reuniram em frente às suas telas para assistir ao desenrolar de uma nova era da ciência.

Na conferência, realizada a cada dois anos, os cientistas colocaram à prova suas mais recentes ferramentas de dobramento de proteínas. Mas uma solução sempre esteve fora de alcance. Alguns deles haviam passado toda a sua carreira tentando melhorar cada vez mais essas previsões. Essas competições foram marcadas por passos de bebê, e os pesquisadores tinham poucos motivos para pensar que 2020 seria diferente.

Eles estavam errados quanto a isso.

continua após a publicidade

Naquela semana, um recém-chegado à comunidade de ciência de proteínas chamado John Jumper apresentou uma nova ferramenta de inteligência artificial, o AlphaFold2, que surgiu nos escritórios do Google DeepMind, o braço de inteligência artificial (IA) da empresa de tecnologia em Londres. No Zoom, ele apresentou dados que mostravam que os modelos preditivos do AlphaFold2 de estruturas de proteínas em 3D eram mais de 90% precisos - cinco vezes melhores do que os de seu concorrente mais próximo.

Em um instante, o problema de dobragem de proteínas passou de impossível a indolor. O sucesso da inteligência artificial onde a mente humana havia se atrapalhado abalou a comunidade de biólogos. “Fiquei em choque”, disse Mohammed AlQuraishi, biólogo de sistemas do Programa de Genômica Matemática da Universidade de Columbia, que participou da reunião. “Muitas pessoas estavam em negação.”

Mas, nas observações finais da conferência, seu organizador, John Moult, deixou pouca margem para dúvidas: O AlphaFold2 havia “resolvido em grande parte” o problema de dobramento de proteínas - e mudado a ciência das proteínas para sempre. Sentado em frente a uma estante de livros em seu escritório em casa, vestindo uma gola alta preta e clicando em seus slides no Zoom, Moult falou em um tom animado, mas também ameaçador. “Isso não é um fim, mas um começo”, disse ele.

continua após a publicidade

Isso foi há três anos e meio. Finalmente é possível começar a responder a essa questão.

AlphaFold3, versão mais recente da IA do Google DeepMind, foi lançado em maio deste ano  Foto: Divulgação/Google DeepMind

Talvez o maior impacto do AlphaFold2 tenha sido chamar a atenção dos biólogos para o poder da inteligência artificial. E seu sucessor, o AlphaFold3, que foi anunciado em maio de 2024, passou para a próxima fase da previsão biológica ao modelar as estruturas das proteínas em combinação com outras moléculas, como DNA ou RNA.

continua após a publicidade

“É a maior história de ‘aprendizado de máquina na ciência’ que já existiu”, disse AlQuraishi.

Entretanto, ainda há grandes lacunas que a inteligência artificial não preencheu. Essas ferramentas não conseguem simular como as proteínas mudam ao longo do tempo ou modelá-las no contexto em que existem: dentro das células. “O AlphaFold mudou tudo e nada”, disse Paul Adams, biólogo estrutural que desenvolve algoritmos para modelar as estruturas de biomoléculas no Lawrence Berkeley National Laboratory.

Esta é a história de como a equipe de Jumper no Google DeepMind conseguiu realizar seu golpe na ciência das proteínas e o que isso significa para o futuro da inteligência artificial na biologia.

continua após a publicidade
As proteínas são moléculas que se apresentam em centenas de milhões de formas diferentes. Cada uma delas tem uma função biológica específica, desde o transporte de oxigênio pelo sangue até o desencadeamento de reações químicas. Em geral, a função é definida por sua forma ou estrutura. Foto: Quanta Magazine

Parte 1

Formulação do problema

continua após a publicidade

Uma longa cadeia de moléculas de aminoácidos não tem função até que se dobre espontaneamente em sua forma inata, que os biólogos chamam de estrutura. A estrutura de uma proteína determina como ela se liga ou interage com outras moléculas e, portanto, define seu papel em uma célula.

“Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca”, disse AlQuraishi. “É onde tudo acontece.”

Se as proteínas não realizassem esse processo de dobragem extremamente bem, uma cascata de desastres se espalharia pelo corpo. Uma proteína dobrada ou desdobrada incorretamente pode levar à toxicidade e à morte celular. Muitas doenças e distúrbios, como a anemia falciforme, são causados por proteínas mal dobradas. E as proteínas mal dobradas podem se agregar em aglomerados que são marcas registradas de doenças neurodegenerativas como Alzheimer e Parkinson.

continua após a publicidade

No entanto, ninguém sabe ao certo como ocorre o dobramento das proteínas. Como as informações da sequência nessas cadeias moleculares simples codificam a forma complexa de uma proteína? Essa é a “pergunta mais profunda que podemos fazer”, disse George Rose, professor emérito de biofísica da Universidade Johns Hopkins.

Depois que sua cadeia polipeptídica é montada, uma proteína pode se dobrar em sua estrutura em um milésimo de segundo. Com o passar do tempo, o problema do dobramento de proteínas se dividiu em novos tipos de problemas. Agora, três questões principais são colocadas: A estrutura de uma proteína pode ser prevista a partir de sua sequência de aminoácidos? Qual é o código de dobramento? E qual é o mecanismo de dobragem?

Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca. É onde tudo acontece.”

Mohammed AlQuraishi, biólogo da Universidade de Columbia

À medida que surgiam mais estruturas, a comunidade da ciência das proteínas precisava de uma maneira de organizá-las e compartilhá-las. Em 1971, o Protein Data Bank foi fundado como um arquivo de estruturas de proteínas. Disponível gratuitamente, o banco de dados tornou-se uma ferramenta confiável para qualquer pessoa que precisasse conhecer a estrutura de uma proteína para investigar uma questão biológica.

Quando o Protein Data Bank foi inaugurado, ele continha as estruturas de sete proteínas. Quando o Google DeepMind o utilizou para treinar o AlphaFold2, quase 50 anos depois, ele continha mais de 140.000 - cada uma delas laboriosamente decodificada pelos cientistas conhecidos como biólogos estruturais.

Conferência tem início

No início da década de 1990, John Moult, pesquisador da Universidade de Maryland, e seu colega Krzysztof Fidelis tiveram uma ideia para trazer disciplina ao caos do campo. Eles criaram um experimento científico comunitário que chamaram de Avaliação Crítica da Previsão de Estrutura, ou CASP, na sigla em inglês.

A ideia era simples. Como organizadores do CASP, Moult e Fidelis publicariam uma lista de sequências de aminoácidos para proteínas cujas estruturas tivessem sido resolvidas recentemente e fornecidas a eles por experimentalistas, mas cujos resultados ainda não tivessem sido publicados. Em seguida, grupos de computação de todo o mundo fariam o possível para prever a estrutura da proteína usando o método que desejassem. Um grupo independente de cientistas avaliaria os modelos comparando suas respostas com as estruturas confirmadas experimentalmente.

John Moult foi cofundador do experimento CASP (Critical Assessment of Structure Prediction) para forçar a si mesmo e a outros biólogos computacionais a testar seus modelos computacionais de proteínas em comparação com estruturas de proteínas determinadas experimentalmente. Foto: Quanta Magazine

Em 1996, após o término do segundo CASP, um jovem chamado David Baker pediu a David Jones, professor de bioinformática da University College London, para dividir um táxi até o aeroporto. Baker havia assistido à palestra de Jones e estava trabalhando em seu próprio modelo computacional. Ele não estava pronto para esse CASP, mas queria conversar sobre ele. Jones ouviu suas ideias no táxi e não esperava vê-lo novamente.

Na competição seguinte, em 1998, Baker abriu as portas com seu algoritmo Rosetta. Ele se tornou “o homem a ser batido”, disse Jones.

Algoritmos como o Rosetta modelaram as interações entre os átomos das moléculas de aminoácidos para prever como elas se dobrariam. Eles “mostraram que realmente era possível prever a estrutura das proteínas”, disse Baker. “Mas não era bom ou preciso o suficiente para ser útil.”

Os biólogos computacionais aprimoraram as ferramentas estatísticas. Em 2016, a precisão da previsão de contatos subiu para 47%. Dois anos depois, chegou a 70%. O algoritmo de Baker se baseou nesse sucesso: Em 2014, o Rosetta produziu duas estruturas de proteínas tão precisas que um avaliador do CASP achou que Baker poderia ter resolvido o problema de dobramento de proteínas.

No entanto, isso levou o campo apenas até certo ponto. A coevolução exigia uma abundância de proteínas semelhantes para comparação, e os experimentalistas não estavam resolvendo estruturas de proteínas com rapidez suficiente para suprir as necessidades dos computacionalistas.

David Baker, que agora é um dos maiores especialistas em design de proteínas do mundo, foi o homem a ser batido no CASP com seu algoritmo de alto desempenho chamado Rosetta. Foto: Divulgação/BBVA Foundation

Parte 2

Fora das profundezas

Em 2016, David Jones teve um vislumbre do futuro em um novo artigo publicado na Nature. Pesquisadores do Google DeepMind, uma equipe de inteligência artificial sediada em Londres, detalharam como seu algoritmo, que usava um método conhecido como aprendizagem profunda, havia vencido um campeão humano em um antigo jogo de tabuleiro chamado Go.

Jones ficou surpreso. “As coisas estão acontecendo”, ele se lembra de ter pensado na época. “Eu realmente vou ter que entrar nessa aprendizagem profunda”.

No mesmo ano, quando o cofundador da DeepMind, Demis Hassabis, estava em Seul assistindo seu sistema de IA AlphaGo vencer um campeão mundial humano no antigo jogo de Go, ele se perguntou: se os pesquisadores do DeepMind puderam escrever um algoritmo para imitar a intuição dos mestres do Go, eles não poderiam escrever um para imitar a intuição dos jogadores do Foldit, um jogo que permitia “brincar” com a estrutura de moléculas, que não sabiam nada sobre biologia, mas podiam dobrar proteínas?

Em pouco tempo, os grupos de estrutura de proteínas começaram a se envolver com deep learning. Mohammed AlQuraish, um biólogo molecular, e sua equipe foram os primeiros a desenvolver uma abordagem capaz de prever diretamente a estrutura da proteína exclusivamente com redes neurais, no que é chamado de método “ponta a ponta” - só que não funcionou muito bem. Outros se perguntaram como poderiam mergulhar em uma nova abordagem que parecia tão importante.

Em 2016, o AlphaGo, um sistema de IA do Google DeepMind, derrotou Lee Sedol (à direita), o campeão mundial do antigo jogo de Go. Sua capacidade de imitar a intuição humana chamou a atenção dos biólogos para o potencial da aprendizagem profunda na ciência das proteínas. Foto: Divulgação/Google DeepMind

“Eu não sabia exatamente o que queria fazer com deep learning, mas percebi que precisava estar fazendo deep learning”, disse Jones.

Jones havia começado a escrever pedidos de subsídios para encontrar seu caminho quando recebeu um e-mail do Google DeepMind. Eles perguntaram a Jones sobre a competição CASP e ofereceram ajuda. “Eu simplesmente presumi que eles queriam dizer: temos muito poder computacional”, disse Jones.

Depois que ele os conheceu, ficou óbvio que o Google tinha ambições maiores. Mas, para realizá-las, o gigante da tecnologia precisaria de mais inteligência científica.

Um novo jogador em campo

Em 2016, quando Jones começou a trabalhar como consultor para o Google DeepMind em um projeto que mais tarde seria conhecido como AlphaFold, John Jumper estava concluindo seu doutorado em química teórica na Universidade de Chicago.

Como estudante de graduação na Universidade de Vanderbilt, ele participou de uma colaboração com pesquisadores do Fermi National Accelerator Laboratory para estudar as estranhas propriedades das partículas subatômicas chamadas quarks. Um dia, quando estava sentado em uma mesa de almoço com os pesquisadores, ele recebeu uma notícia desagradável. “Então, esse experimento em que estamos trabalhando - quando ele será ativado?” Jumper se lembra de ter perguntado a eles. Um dos professores disse que provavelmente se aposentaria primeiro. O outro, um pouco mais velho, disse que talvez não vivesse para ver isso.

“Eu queria fazer ciência em um período de tempo um pouco mais curto do que esse”, disse Jumper. Ele havia conseguido um emprego na D.E. Shaw Research, uma empresa de Nova York que, na época, estava criando simulações básicas de proteínas. Ao compreender como as proteínas se movem e mudam, eles esperavam entender melhor os mecanismos de várias doenças, como o câncer de pulmão.

John Jumper suspeitava que os biólogos haviam estudado estruturas de proteínas suficientes para resolver o problema de dobramento de proteínas. "Eu acreditava que os dados eram suficientes", disse Jumper, que começou a trabalhar no Google DeepMind em 2017. Mas "as ideias não eram". Foto: Divulgação/Google DeepMind

Foi a primeira vez que Jumper compreendeu a importância potencial de seu trabalho. “Trata-se de saúde e de prolongar a vida das pessoas”, disse ele. Nos três anos seguintes, Jumper modelou os movimentos das proteínas nos supercomputadores da empresa, que haviam sido construídos especificamente para simular moléculas mais rapidamente. “Eu estava fazendo mais simulações em uma terça-feira de algumas semanas do que faria em todo o meu doutorado”, disse ele.

Em 2011, ele deu outra chance à pós-graduação, dessa vez estudando química teórica na Universidade de Chicago. Em 2017, Jumper ouviu um boato de que o Google DeepMind estava entrando na previsão de estruturas de proteínas. Ele tinha acabado de concluir seu doutorado, usando o aprendizado de máquina para simular o dobramento e a dinâmica de proteínas. Ele se candidatou a um emprego como cientista pesquisador.

“O projeto ainda era secreto”, disse ele. Se ele abordasse o tema do dobramento de proteínas em uma entrevista, a equipe do DeepMind mudava de assunto. “Você só pode fazer isso um certo número de vezes até que eu tenha certeza do que você está fazendo”, disse Jumper.

Em outubro de 2017, ele chegou ao escritório da DeepMind em Londres. Com a ajuda de Jones como consultor, a equipe já estava profundamente envolvida no desenvolvimento do AlphaFold. “Foi uma época muito divertida em que estávamos apenas jogando ideias na parede”, disse Jones. “Por fim, surgiu uma boa ideia central, e eles a seguiram.”

Para treinar seu algoritmo, a equipe do DeepMind usou mais de 140.000 estruturas do Protein Data Bank. Eles inseriram essas informações em uma rede convolucional, mas não mudaram muito a arquitetura da IA em si. Era “aprendizado de máquina padrão”, disse Jumper.

Em meados de 2018, o AlphaFold estava pronto para participar do CASP e competir com cientistas de proteínas de boa-fé. “É um pouco como uma corrida de Fórmula 1″, refletiu Jones. “Você acha que construiu o melhor carro, mas simplesmente não sabe o que as outras equipes construíram.” As apostas pareciam altas. A equipe da DeepMind debateu se deveria competir anonimamente; não queriam correr o risco de serem humilhados.

“Ninguém quer fracassar”, disse Jones. No meio acadêmico, isso faz parte do trabalho; você fracassa e segue em frente porque não tem escolha. “Mas, obviamente, se você for uma empresa de tecnologia multibilionária, não será bem visto se você tentar fazer algo e fracassar.”

Por fim, eles decidiram enviar seus resultados com o nome Google DeepMind. Alguns meses antes da reunião de dezembro, Jones recebeu informações dos organizadores da CASP. Eles sugeriram que a equipe do DeepMind comparecesse à reunião porque o AlphaFold tinha tido um desempenho muito bom.

A vitória não foi enorme - eles foram cerca de 2,5 vezes melhores na previsão de estruturas de proteínas em comparação com a segunda melhor equipe - mas a vitória causou uma boa impressão. “Ficou claro que algo interessante havia acontecido”, disse Moult.

Reiniciando o algoritmo

A vitória deveria ter energizado a equipe da DeepMind. Mas eles sabiam que não estavam nem perto de resolver o problema de dobramento de proteínas. Hassabis os havia reunido alguns meses antes. “Vamos tentar resolver isso ou não?” Jumper lembra-se dele dizendo. “Se não, vamos encontrar problemas nos quais possamos causar um impacto muito, muito grande.”

“Tivemos esse momento em que realmente decidimos: Vamos atrás de uma solução”, disse Jumper. Eles voltaram à prancheta de desenho.

Com sua formação diversificada em física, química, biologia e computação, Jumper trouxe insights originais para as sessões de brainstorming. Logo, ele estava liderando a equipe, que havia crescido de seis para 15 pessoas. “Havia algo muito único acontecendo”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e mais tarde fundou a Atomic AI, uma empresa de biotecnologia orientada por IA.

A sede do Google DeepMind fica em Londres. Foto: Divulgação/Buildington

Sob a liderança de Jumper, o AlphaFold foi reconstruído. A DeepMind projetou um novo tipo de arquitetura de transformador - um tipo deep learning que “impulsionou basicamente todos os avanços no aprendizado de máquina que aconteceram nos últimos cinco anos”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e, posteriormente, fundou a Atomic AI, uma empresa de biotecnologia orientada por IA. A rede neural ajustou a força de suas conexões para criar representações mais precisas dos dados, neste caso, dados de evolução e estrutura de proteínas. Ela passou esses dados por um segundo transformador para prever a estrutura 3D de uma proteína. Em seguida, o algoritmo aprimorou ainda mais a estrutura, executando-a, juntamente com alguns dos dados revisados, novamente por meio de seus transformadores mais algumas vezes.

Quando eles começaram a trabalhar no AlphaFold2, o algoritmo era “terrível, mas não tão terrível quanto esperávamos”, disse Jumper. “Ele criava hélices que se pareciam vagamente com uma proteína”. Mas à medida que o aprimoravam, notaram um enorme aumento na eficiência e na precisão de suas previsões.

O terremoto

No início do verão, Moult recebeu um e-mail de um avaliador do CASP: “Dê uma olhada nisso, é muito impressionante”. Em anexo ao e-mail, havia uma estrutura de proteína resolvida pelo Google DeepMind. Moult ficou de fato impressionado, mas achou que era um caso isolado.

Depois, ele recebeu outro e-mail, e mais outro. “Isso é estranho”, ele se lembra de ter pensado. Eram três, quatro, uma série de previsões quase perfeitas de proteínas - e todas da DeepMind. No final do verão, “percebemos rapidamente (...) que algo muito, muito extraordinário havia acontecido”, disse Moult.

Os avaliadores do CASP pontuam cada envio comparando a estrutura da proteína prevista com sua estrutura experimental comprovada. Uma pontuação perfeita, na qual o modelo e a realidade correspondem átomo por átomo, é 100. Moult sempre acreditou que qualquer valor acima de 90 indicaria que um algoritmo havia resolvido efetivamente a estrutura de uma proteína. A maioria das estruturas do AlphaFold atingiu ou ultrapassou a marca de 90.

Em dezembro de 2020, menos de um ano após o início da pandemia de Covid-19, Jumper apresentou o AlphaFold2 pelo Zoom na reunião virtual do CASP.

Como o restante dos participantes, Jones assistiu de casa. “Eu estava simplesmente preso... assistindo ao desenrolar da situação”, disse ele. “Não há saída porque seus colegas não estão por perto. ... Estamos todos confinados, não podemos ir a lugar algum.”

Parte 3

Choque e pavor

A biologia estrutural de repente ficou desestruturada. No início, houve “muita busca pela alma”, disse Silvio Tosatto, pesquisador da Universidade de Padua, que competiu no CASP desde seus primeiros dias. Alguns biólogos estruturais temiam que seus trabalhos se tornassem obsoletos. Outros ficaram na defensiva e alegaram que o AlphaFold2 não era preciso.

Os biólogos computacionais que estavam tentando resolver esse problema, alguns há décadas, acharam o momento agridoce. Em uma postagem de blog que escreveu após o CASP, AlQuraishi citou um participante que descreveu a sensação de se sentir como alguém cujo filho tivesse saído de casa pela primeira vez.

No entanto, mesmo em meio à apreensão em relação a essa nova e brilhante ferramenta, muitos cientistas ficaram entusiasmados. Aqueles que não faziam trabalho estrutural costumavam ter que colaborar com biólogos estruturais para determinar as estruturas das proteínas para seus experimentos mais amplos. Agora, eles podem simplesmente pressionar alguns botões e obter a estrutura por conta própria.

Na mídia, o AlphaFold2 tornou-se o novo e brilhante avanço da inteligência artificial que “mudaria tudo”. Mas foram necessários meses e anos para que os cientistas descobrissem o que o AlphaFold2 podia e não podia fazer. Cerca de seis meses após a palestra de Jumper, o Google DeepMind publicou seus resultados e compartilhou o código subjacente do AlphaFold2. “Quando o AlphaFold2 foi lançado, no dia seguinte estávamos tentando instalá-lo em nossos servidores de GPU”, disse Anastassis Perrakis, biólogo estrutural do Instituto do Câncer da Holanda e da Universidade de Utrecht. Os biólogos começaram a jogar.

Anastassis Perrakis contribuiu com estruturas experimentais de proteínas para o CASP, nas quais os biólogos computacionais testaram seus métodos Foto: Acervo Pessoal/Anastassis Perrakis

“Eu esperava que [o AlphaFold2] fosse cair”, disse Janet Thornton, biofísica da Universidade de Oxford. “Mas, na verdade, minha impressão é que ele tem tido um sucesso extraordinário.”

Começou a ficar claro que, em vez de ser uma ameaça, o AlphaFold2 poderia ser um catalisador para acelerar a pesquisa. Em vez de tirar o emprego dos biólogos estruturais, ela lhes proporcionou uma nova ferramenta para fazer melhor seu trabalho.

No entanto, isso não resultou imediatamente em todos os tipos de novos medicamentos, como algumas pessoas previram, e os pesquisadores logo perceberam que a ferramenta tem suas limitações. As previsões do AlphaFold2 não são perfeitas. Elas exigem validação experimental, disse Perrakis. Mas “você pode passar muito mais rápido para o estudo real das estruturas”. Agora, quando seus alunos iniciam um novo projeto, eles primeiro usam o AlphaFold2 para prever a estrutura de uma determinada proteína. Em seguida, realizam experimentos para validá-la.

Perrakis suspeita que ele e outros pesquisadores continuarão a usar a cristalografia de raios X até certo ponto. Mas, para desenvolver estruturas iniciais de proteínas, muitos estão começando a combinar previsões de aprendizagem profunda com técnicas avançadas de microscópio eletrônico, como o cryo-EM, que envolve o congelamento de amostras biológicas e seu bombardeio com elétrons. Assim, eles podem chegar às questões interessantes sobre o que suas proteínas fazem. O AlphaFold2 “turbinou” o crio-EM, disse AlQuraishi.

Essa mudança já começou. Em junho de 2022, uma edição especial da revista Science revelou a estrutura quase atômica de um complexo de poros nucleares humano. Essa estrutura maciça e complicada - formada por 30 proteínas diferentes - foi um dilema biológico durante décadas. Os cientistas usaram as previsões do AlphaFold2 para preencher as lacunas nas estruturas das proteínas que não foram resolvidas pelo cryo-EM.

Ver esse artigo, no qual outros cientistas usaram o AlphaFold2 para fazer uma descoberta biológica, foi o “momento em que eu soube que [o AlphaFold] era realmente importante”, disse Jumper.

A próxima fronteira

Quase imediatamente depois de ver a palestra de Jumper na conferência CASP de 2020, Baker voltou a trabalhar em seu algoritmo Rosetta. O Google ainda não havia compartilhado o código-fonte subjacente do AlphaFold2. Mesmo assim, “começamos a brincar com algumas das ideias que eles apresentaram”, disse Baker. No mesmo dia em que o Google DeepMind publicou o AlphaFold2 na Nature, ele e sua equipe anunciaram o RoseTTAFold, um rival altamente preciso do AlphaFold. O RoseTTAFold também usa deep learning para prever estruturas de proteínas, mas tem uma arquitetura subjacente muito diferente do AlphaFold2.

A RoseTTAFold não estava sozinha. Outros concorrentes da AlphaFold, incluindo a Meta, criaram seus próprios algoritmos para abordar a previsão da estrutura de proteínas ou problemas relacionados. Alguns, incluindo a startup de biotecnologia Atomic AI, de Townshend, foram além das proteínas e usaram o aprendizado profundo para entender as estruturas de RNA. Entretanto, no âmbito das previsões de estrutura única, ninguém conseguiu igualar a precisão do AlphaFold até o momento, disse Thornton. “Tenho certeza de que conseguirão, mas acho que será muito difícil conseguir outro momento (...) do AlphaFold como esse.”

No ano passado, David Baker (foto), com John Jumper e Demis Hassabis, recebeu o prêmio Frontiers of Knowledge Award in Biology and Biomedicine por seu trabalho que revolucionou o estudo e o design de proteínas com inteligência artificial.  Foto: Divulgação/BBVA Foundation

Exercício de confiança

É inegável que o sucesso do AlphaFold2 mudou a atitude dos biólogos em relação à inteligência artificial. Durante muito tempo, muitos biólogos experimentais desconfiavam da computação. Eles entendiam que algumas abordagens de aprendizado de máquina podem fazer com que os dados pareçam melhores do que são. Então, o Google DeepMind demonstrou “inequivocamente que é possível fazer um trabalho sério com isso”, disse AlQuraishi. Qualquer ceticismo agora é acompanhado de: “Bem, e quanto ao AlphaFold?”

Um recurso da plataforma AlphaFold2 contribui para essa confiança: ela não apenas gera um modelo 3D de uma proteína, mas também autoavalia a precisão de sua previsão, classificando diferentes partes da estrutura em uma escala de confiança de zero a 100.

Em julho de 2022, depois que o Google DeepMind divulgou as previsões de estrutura de 218 milhões de proteínas - quase todas as conhecidas no mundo - Paul Adams, biólogo estrutural, decidiu analisar os autorrelatos do AlphaFold2. Ele comparou as previsões com as estruturas resolvidas das proteínas e avaliou sua precisão de forma independente.

A “boa notícia é que, quando o AlphaFold acha que está certo, ele geralmente está muito certo”, disse Adams. “Quando ele acha que não está certo, geralmente não está.” No entanto, em cerca de 10% dos casos em que o AlphaFold2 estava “muito confiante” em sua previsão (uma pontuação de pelo menos 90 de 100 na escala de confiança), ele não deveria estar, relatou: as previsões não correspondiam ao que foi visto experimentalmente.

O fato de o sistema de IA parecer ter algum ceticismo pode inspirar uma confiança excessiva em suas conclusões. A maioria dos biólogos vê o AlphaFold2 pelo que ele é: uma ferramenta de previsão. Mas outros estão levando isso longe demais. Alguns biólogos celulares e bioquímicos que costumavam trabalhar com biólogos estruturais os substituíram pelo AlphaFold2 e tomam suas previsões como verdadeiras. Às vezes, os cientistas publicam artigos com estruturas de proteínas que, para qualquer biólogo estrutural, são obviamente incorretas, disse Perrakis. “E eles dizem: ‘Bem, essa é a estrutura da AlphaFold’”.

Embora o AlphaFold2 seja excelente para prever as estruturas de proteínas pequenas e simples, ele é menos preciso para prever aquelas que contêm várias partes. Ele também não é capaz de levar em conta o ambiente da proteína ou as ligações com outras moléculas, que alteram a forma de uma proteína na natureza. Às vezes, uma proteína precisa estar cercada por determinados íons, sais ou metais para se dobrar adequadamente.

Há também vários tipos de proteínas dinâmicas que o AlphaFold2 prevê de forma ruim, mas que não são menos importantes em termos de função. As proteínas que mudam de forma, também conhecidas como proteínas de troca de dobras, não são estáticas: suas formas mudam à medida que interagem com outras moléculas. Algumas se dobram em formas dramaticamente diferentes, apesar de terem a mesma sequência de aminoácidos.

Em comparação com as centenas de milhares de proteínas estáticas e de estrutura única com as quais o algoritmo do DeepMind foi treinado, há apenas cerca de 100 exemplos de proteínas que mudam de dobra, embora certamente existam mais.

Complexidade celular

O interior das células é complicado e caótico. A membrana externa de uma célula envolve um ambiente bioquímico densamente lotado de partes moleculares - proteínas, moléculas de sinalização, RNA mensageiro, organelas e muito mais. As proteínas se ligam umas às outras e a outras moléculas, o que altera suas formas e funções.

A capacidade do AlphaFold2 de prever a estrutura de uma única proteína não leva os biólogos nem perto de compreender as proteínas nesse intrincado ambiente nativo. Mas essa é a direção que o campo está tomando agora. Os gigantes da inteligência artificial da ciência das proteínas, o Google DeepMind e o Institute for Protein Design de David Baker, estão agora desenvolvendo seus algoritmos de aprendizagem profunda para prever as estruturas que as proteínas assumem ao interagir com outras moléculas.

Na primavera de 2024, ambos publicaram artigos descrevendo desenvolvimentos semelhantes nessa área. As atualizações de seus algoritmos - lançados com os novos nomes AlphaFold3 e RoseTTAFold All-Atom - permitem que eles prevejam as estruturas de proteínas ligadas umas às outras, ao DNA, ao RNA e a outras moléculas pequenas.

As proteínas não trabalham sozinhas: elas interagem constantemente com outras moléculas. Essa representação de uma paisagem celular é feita de modelos de proteínas reais e outras moléculas em "uma tentativa de visualizar a grande complexidade e a beleza da coreografia molecular da célula", escreveu seu criador, Gael McGill. Foto: Evan Ingersoll and Gaël McGill, PhD/Digizyme Inc

Os biólogos estão apenas começando a testar essas atualizações. Até agora, o AlphaFold3 é muito mais preciso do que o RoseTTAFold All-Atom, disse AlQuraishi - mas não é um salto tão grande quanto um “momento AlphaFold2″. Para algumas macromoléculas, como as estruturas de RNA, sua precisão permanece abaixo da de outros sistemas e experimentos baseados em física.

Mesmo assim, os novos algoritmos são um passo na direção certa. As interações entre proteínas e outras moléculas são essenciais para seu funcionamento nas células. Para desenvolver medicamentos que possam se acoplar às proteínas e alterar sua atividade conforme desejado, os pesquisadores precisam entender como são esses complexos. No entanto, é improvável que qualquer um dos algoritmos leve a novos medicamentos em breve, disse Adams. “Ambos os métodos ainda são limitados em sua precisão, [mas] ambos são melhorias significativas em relação ao que era possível.”

Há uma outra grande mudança no novo produto da DeepMind. O código subjacente do AlphaFold2 era de código aberto para que outros pesquisadores pudessem estudar o algoritmo e refazê-lo para seus próprios projetos. No entanto, em vez de compartilhar o código-fonte do AlphaFold3, o Google optou, até o momento, por protegê-lo como um segredo comercial. “Pelo menos por enquanto, ninguém pode executá-lo e usá-lo como fizeram com o [AlphaFold2]”, disse AlQuraishi.

Mesmo antes do lançamento do AlphaFold3, os pesquisadores estavam testando o AlphaFold2 para ver se ele poderia fornecer informações úteis sobre proteínas em diferentes conformações. Brenda Rubenstein, professora associada de química e física da Brown University, estava interessada em quinases, um tipo de proteína que ativa outras proteínas. Especificamente, ela queria entender o mecanismo de uma quinase que causa câncer para que pudesse desenvolver medicamentos mais precisos contra ela. Seu laboratório modelou a estrutura da quinase usando uma abordagem baseada na física, que mapeia as coordenadas 3D dos átomos usando as leis de Newton. Isso levou dois anos e meio.

“Há cerca de um ano, dissemos: podemos fazer isso mais rápido?” disse Rubenstein. Eles tentaram usar o AlphaFold2 de uma forma inovadora. Ao fornecer dados sobre proteínas relacionadas ao algoritmo, ela descobriu que ele podia prever sua quinase em diferentes conformações com mais de 80% de precisão.

A visão de alguém de fora

Quando o CASP 2020 chegou, muitos pesquisadores esperavam que um avanço na previsão de estruturas viesse por meio da inteligência artificial. “Tudo estava caminhando nessa direção”, disse Townshend. Mas eles não esperavam que isso viesse de uma empresa de tecnologia multibilionária, e não esperavam que fosse tão cedo. Alguns disseram que o AlphaFold2 não era uma façanha da nova ciência, mas sim uma engenharia inteligente. Alguns ficaram surpresos com o fato de os algoritmos de David Baker não terem levado o troféu. Outros ficaram menos surpresos por causa dos recursos inigualáveis do Google DeepMind.

Cerca de 100 laboratórios participam do CASP todos os anos e, embora tenham começado a adotar tecnologias de IA, eles “provavelmente não tinham a experiência que o DeepMind tinha, nem o poder de computação”, disse Thornton. O DeepMind “tinha acesso a um poder de computação basicamente ilimitado”.

Ela também especulou que a falta de conhecimento especializado do Google em ciência de proteínas pode tê-los liberado de forma criativa. “Eles tinham um único objetivo”, disse Thornton, e se concentraram na criação de uma excelente rede neural. Os biólogos de proteínas tinham bagagem. Enquanto trabalhavam em suas ferramentas de IA, eles queriam capturar a física molecular de nível atômico e a química envolvida no dobramento de proteínas. O DeepMind tinha uma abordagem diferente: transformaremos os dados de sequência em uma estrutura 3D, e não importa como chegaremos lá.

O novo mundo

Setenta anos atrás, acreditava-se que as proteínas eram uma substância gelatinosa. O campo da biologia de proteínas é “mais empolgante agora do que era antes do AlphaFold”, disse Perrakis. A empolgação vem da promessa de reviver a descoberta de medicamentos com base na estrutura, da aceleração na criação de hipóteses e da esperança de compreender as interações complexas que ocorrem nas células.

“É como a revolução genômica”, disse AlQuraishi. Há tantos dados, e os biólogos, seja em seus laboratórios úmidos ou na frente de seus computadores, estão apenas começando a descobrir o que fazer com tudo isso.

Mas, assim como outras descobertas de inteligência artificial que estão surgindo em todo o mundo, essa pode ter um teto.

O sucesso do AlphaFold2 se baseou na disponibilidade de dados de treinamento - centenas de milhares de estruturas de proteínas meticulosamente determinadas pelas mãos de experimentadores pacientes. Embora o AlphaFold3 e os algoritmos relacionados tenham demonstrado algum sucesso na determinação das estruturas de compostos moleculares, sua precisão está aquém da de seus predecessores de proteína única. Isso se deve, em parte, ao fato de haver muito menos dados de treinamento disponíveis.

O problema de dobragem de proteínas foi “quase um exemplo perfeito para uma solução de IA”, disse Thornton, porque o algoritmo poderia ser treinado em centenas de milhares de estruturas de proteínas coletadas de maneira uniforme. No entanto, o Protein Data Bank pode ser um exemplo incomum de compartilhamento organizado de dados em biologia. Sem dados de alta qualidade para treinar algoritmos, eles não farão previsões precisas.

“Tivemos sorte”, disse Jumper. “Encontramos o problema no momento em que ele estava pronto para ser resolvido.”

Ninguém sabe se o sucesso do deep learning na solução do problema de dobramento de proteínas será levado a outros campos da ciência ou mesmo a outras áreas da biologia. Mas alguns, como AlQuraishi, estão otimistas. “O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”, disse ele. Os químicos, por exemplo, precisam realizar cálculos caros do ponto de vista computacional. Com a aprendizagem profunda, esses cálculos já estão sendo feitos até um milhão de vezes mais rápido do que antes, disse AlQuraishi.

A inteligência artificial pode claramente avançar em tipos específicos de questões científicas. Mas ela pode levar os cientistas apenas até certo ponto no avanço do conhecimento. “Historicamente, a ciência tem se dedicado a compreender a natureza”, disse AlQuraishi - os processos que fundamentam a vida e o universo. Se a ciência avançar com ferramentas de aprendizagem profunda que revelam soluções e nenhum processo, será que isso é realmente ciência?

O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”

Mohammed AlQuraishi, da Universidade de Columbia

Se muitos pesquisadores decidirem desistir de compreender os processos da natureza, então a inteligência artificial não terá mudado apenas a ciência - ela terá mudado os cientistas também.

A próxima reunião do CASP será realizada em dezembro de 2024 nas águas do Mar do Caribe. Os ventos são cordiais, como provavelmente será a conversa. O barulho já diminuiu há muito tempo - pelo menos em voz alta. Não se sabe como será a competição deste ano. Mas se os últimos CASPs são alguma indicação, Moult sabe que deve esperar apenas uma coisa: “surpresas”.

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How AI Revolutionized Protein Science, but Didn’t End It.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Em dezembro de 2020, quando os bloqueios da pandemia impossibilitaram reuniões presenciais, centenas de cientistas da computação se reuniram em frente às suas telas para assistir ao desenrolar de uma nova era da ciência.

Na conferência, realizada a cada dois anos, os cientistas colocaram à prova suas mais recentes ferramentas de dobramento de proteínas. Mas uma solução sempre esteve fora de alcance. Alguns deles haviam passado toda a sua carreira tentando melhorar cada vez mais essas previsões. Essas competições foram marcadas por passos de bebê, e os pesquisadores tinham poucos motivos para pensar que 2020 seria diferente.

Eles estavam errados quanto a isso.

Naquela semana, um recém-chegado à comunidade de ciência de proteínas chamado John Jumper apresentou uma nova ferramenta de inteligência artificial, o AlphaFold2, que surgiu nos escritórios do Google DeepMind, o braço de inteligência artificial (IA) da empresa de tecnologia em Londres. No Zoom, ele apresentou dados que mostravam que os modelos preditivos do AlphaFold2 de estruturas de proteínas em 3D eram mais de 90% precisos - cinco vezes melhores do que os de seu concorrente mais próximo.

Em um instante, o problema de dobragem de proteínas passou de impossível a indolor. O sucesso da inteligência artificial onde a mente humana havia se atrapalhado abalou a comunidade de biólogos. “Fiquei em choque”, disse Mohammed AlQuraishi, biólogo de sistemas do Programa de Genômica Matemática da Universidade de Columbia, que participou da reunião. “Muitas pessoas estavam em negação.”

Mas, nas observações finais da conferência, seu organizador, John Moult, deixou pouca margem para dúvidas: O AlphaFold2 havia “resolvido em grande parte” o problema de dobramento de proteínas - e mudado a ciência das proteínas para sempre. Sentado em frente a uma estante de livros em seu escritório em casa, vestindo uma gola alta preta e clicando em seus slides no Zoom, Moult falou em um tom animado, mas também ameaçador. “Isso não é um fim, mas um começo”, disse ele.

Isso foi há três anos e meio. Finalmente é possível começar a responder a essa questão.

AlphaFold3, versão mais recente da IA do Google DeepMind, foi lançado em maio deste ano  Foto: Divulgação/Google DeepMind

Talvez o maior impacto do AlphaFold2 tenha sido chamar a atenção dos biólogos para o poder da inteligência artificial. E seu sucessor, o AlphaFold3, que foi anunciado em maio de 2024, passou para a próxima fase da previsão biológica ao modelar as estruturas das proteínas em combinação com outras moléculas, como DNA ou RNA.

“É a maior história de ‘aprendizado de máquina na ciência’ que já existiu”, disse AlQuraishi.

Entretanto, ainda há grandes lacunas que a inteligência artificial não preencheu. Essas ferramentas não conseguem simular como as proteínas mudam ao longo do tempo ou modelá-las no contexto em que existem: dentro das células. “O AlphaFold mudou tudo e nada”, disse Paul Adams, biólogo estrutural que desenvolve algoritmos para modelar as estruturas de biomoléculas no Lawrence Berkeley National Laboratory.

Esta é a história de como a equipe de Jumper no Google DeepMind conseguiu realizar seu golpe na ciência das proteínas e o que isso significa para o futuro da inteligência artificial na biologia.

As proteínas são moléculas que se apresentam em centenas de milhões de formas diferentes. Cada uma delas tem uma função biológica específica, desde o transporte de oxigênio pelo sangue até o desencadeamento de reações químicas. Em geral, a função é definida por sua forma ou estrutura. Foto: Quanta Magazine

Parte 1

Formulação do problema

Uma longa cadeia de moléculas de aminoácidos não tem função até que se dobre espontaneamente em sua forma inata, que os biólogos chamam de estrutura. A estrutura de uma proteína determina como ela se liga ou interage com outras moléculas e, portanto, define seu papel em uma célula.

“Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca”, disse AlQuraishi. “É onde tudo acontece.”

Se as proteínas não realizassem esse processo de dobragem extremamente bem, uma cascata de desastres se espalharia pelo corpo. Uma proteína dobrada ou desdobrada incorretamente pode levar à toxicidade e à morte celular. Muitas doenças e distúrbios, como a anemia falciforme, são causados por proteínas mal dobradas. E as proteínas mal dobradas podem se agregar em aglomerados que são marcas registradas de doenças neurodegenerativas como Alzheimer e Parkinson.

No entanto, ninguém sabe ao certo como ocorre o dobramento das proteínas. Como as informações da sequência nessas cadeias moleculares simples codificam a forma complexa de uma proteína? Essa é a “pergunta mais profunda que podemos fazer”, disse George Rose, professor emérito de biofísica da Universidade Johns Hopkins.

Depois que sua cadeia polipeptídica é montada, uma proteína pode se dobrar em sua estrutura em um milésimo de segundo. Com o passar do tempo, o problema do dobramento de proteínas se dividiu em novos tipos de problemas. Agora, três questões principais são colocadas: A estrutura de uma proteína pode ser prevista a partir de sua sequência de aminoácidos? Qual é o código de dobramento? E qual é o mecanismo de dobragem?

Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca. É onde tudo acontece.”

Mohammed AlQuraishi, biólogo da Universidade de Columbia

À medida que surgiam mais estruturas, a comunidade da ciência das proteínas precisava de uma maneira de organizá-las e compartilhá-las. Em 1971, o Protein Data Bank foi fundado como um arquivo de estruturas de proteínas. Disponível gratuitamente, o banco de dados tornou-se uma ferramenta confiável para qualquer pessoa que precisasse conhecer a estrutura de uma proteína para investigar uma questão biológica.

Quando o Protein Data Bank foi inaugurado, ele continha as estruturas de sete proteínas. Quando o Google DeepMind o utilizou para treinar o AlphaFold2, quase 50 anos depois, ele continha mais de 140.000 - cada uma delas laboriosamente decodificada pelos cientistas conhecidos como biólogos estruturais.

Conferência tem início

No início da década de 1990, John Moult, pesquisador da Universidade de Maryland, e seu colega Krzysztof Fidelis tiveram uma ideia para trazer disciplina ao caos do campo. Eles criaram um experimento científico comunitário que chamaram de Avaliação Crítica da Previsão de Estrutura, ou CASP, na sigla em inglês.

A ideia era simples. Como organizadores do CASP, Moult e Fidelis publicariam uma lista de sequências de aminoácidos para proteínas cujas estruturas tivessem sido resolvidas recentemente e fornecidas a eles por experimentalistas, mas cujos resultados ainda não tivessem sido publicados. Em seguida, grupos de computação de todo o mundo fariam o possível para prever a estrutura da proteína usando o método que desejassem. Um grupo independente de cientistas avaliaria os modelos comparando suas respostas com as estruturas confirmadas experimentalmente.

John Moult foi cofundador do experimento CASP (Critical Assessment of Structure Prediction) para forçar a si mesmo e a outros biólogos computacionais a testar seus modelos computacionais de proteínas em comparação com estruturas de proteínas determinadas experimentalmente. Foto: Quanta Magazine

Em 1996, após o término do segundo CASP, um jovem chamado David Baker pediu a David Jones, professor de bioinformática da University College London, para dividir um táxi até o aeroporto. Baker havia assistido à palestra de Jones e estava trabalhando em seu próprio modelo computacional. Ele não estava pronto para esse CASP, mas queria conversar sobre ele. Jones ouviu suas ideias no táxi e não esperava vê-lo novamente.

Na competição seguinte, em 1998, Baker abriu as portas com seu algoritmo Rosetta. Ele se tornou “o homem a ser batido”, disse Jones.

Algoritmos como o Rosetta modelaram as interações entre os átomos das moléculas de aminoácidos para prever como elas se dobrariam. Eles “mostraram que realmente era possível prever a estrutura das proteínas”, disse Baker. “Mas não era bom ou preciso o suficiente para ser útil.”

Os biólogos computacionais aprimoraram as ferramentas estatísticas. Em 2016, a precisão da previsão de contatos subiu para 47%. Dois anos depois, chegou a 70%. O algoritmo de Baker se baseou nesse sucesso: Em 2014, o Rosetta produziu duas estruturas de proteínas tão precisas que um avaliador do CASP achou que Baker poderia ter resolvido o problema de dobramento de proteínas.

No entanto, isso levou o campo apenas até certo ponto. A coevolução exigia uma abundância de proteínas semelhantes para comparação, e os experimentalistas não estavam resolvendo estruturas de proteínas com rapidez suficiente para suprir as necessidades dos computacionalistas.

David Baker, que agora é um dos maiores especialistas em design de proteínas do mundo, foi o homem a ser batido no CASP com seu algoritmo de alto desempenho chamado Rosetta. Foto: Divulgação/BBVA Foundation

Parte 2

Fora das profundezas

Em 2016, David Jones teve um vislumbre do futuro em um novo artigo publicado na Nature. Pesquisadores do Google DeepMind, uma equipe de inteligência artificial sediada em Londres, detalharam como seu algoritmo, que usava um método conhecido como aprendizagem profunda, havia vencido um campeão humano em um antigo jogo de tabuleiro chamado Go.

Jones ficou surpreso. “As coisas estão acontecendo”, ele se lembra de ter pensado na época. “Eu realmente vou ter que entrar nessa aprendizagem profunda”.

No mesmo ano, quando o cofundador da DeepMind, Demis Hassabis, estava em Seul assistindo seu sistema de IA AlphaGo vencer um campeão mundial humano no antigo jogo de Go, ele se perguntou: se os pesquisadores do DeepMind puderam escrever um algoritmo para imitar a intuição dos mestres do Go, eles não poderiam escrever um para imitar a intuição dos jogadores do Foldit, um jogo que permitia “brincar” com a estrutura de moléculas, que não sabiam nada sobre biologia, mas podiam dobrar proteínas?

Em pouco tempo, os grupos de estrutura de proteínas começaram a se envolver com deep learning. Mohammed AlQuraish, um biólogo molecular, e sua equipe foram os primeiros a desenvolver uma abordagem capaz de prever diretamente a estrutura da proteína exclusivamente com redes neurais, no que é chamado de método “ponta a ponta” - só que não funcionou muito bem. Outros se perguntaram como poderiam mergulhar em uma nova abordagem que parecia tão importante.

Em 2016, o AlphaGo, um sistema de IA do Google DeepMind, derrotou Lee Sedol (à direita), o campeão mundial do antigo jogo de Go. Sua capacidade de imitar a intuição humana chamou a atenção dos biólogos para o potencial da aprendizagem profunda na ciência das proteínas. Foto: Divulgação/Google DeepMind

“Eu não sabia exatamente o que queria fazer com deep learning, mas percebi que precisava estar fazendo deep learning”, disse Jones.

Jones havia começado a escrever pedidos de subsídios para encontrar seu caminho quando recebeu um e-mail do Google DeepMind. Eles perguntaram a Jones sobre a competição CASP e ofereceram ajuda. “Eu simplesmente presumi que eles queriam dizer: temos muito poder computacional”, disse Jones.

Depois que ele os conheceu, ficou óbvio que o Google tinha ambições maiores. Mas, para realizá-las, o gigante da tecnologia precisaria de mais inteligência científica.

Um novo jogador em campo

Em 2016, quando Jones começou a trabalhar como consultor para o Google DeepMind em um projeto que mais tarde seria conhecido como AlphaFold, John Jumper estava concluindo seu doutorado em química teórica na Universidade de Chicago.

Como estudante de graduação na Universidade de Vanderbilt, ele participou de uma colaboração com pesquisadores do Fermi National Accelerator Laboratory para estudar as estranhas propriedades das partículas subatômicas chamadas quarks. Um dia, quando estava sentado em uma mesa de almoço com os pesquisadores, ele recebeu uma notícia desagradável. “Então, esse experimento em que estamos trabalhando - quando ele será ativado?” Jumper se lembra de ter perguntado a eles. Um dos professores disse que provavelmente se aposentaria primeiro. O outro, um pouco mais velho, disse que talvez não vivesse para ver isso.

“Eu queria fazer ciência em um período de tempo um pouco mais curto do que esse”, disse Jumper. Ele havia conseguido um emprego na D.E. Shaw Research, uma empresa de Nova York que, na época, estava criando simulações básicas de proteínas. Ao compreender como as proteínas se movem e mudam, eles esperavam entender melhor os mecanismos de várias doenças, como o câncer de pulmão.

John Jumper suspeitava que os biólogos haviam estudado estruturas de proteínas suficientes para resolver o problema de dobramento de proteínas. "Eu acreditava que os dados eram suficientes", disse Jumper, que começou a trabalhar no Google DeepMind em 2017. Mas "as ideias não eram". Foto: Divulgação/Google DeepMind

Foi a primeira vez que Jumper compreendeu a importância potencial de seu trabalho. “Trata-se de saúde e de prolongar a vida das pessoas”, disse ele. Nos três anos seguintes, Jumper modelou os movimentos das proteínas nos supercomputadores da empresa, que haviam sido construídos especificamente para simular moléculas mais rapidamente. “Eu estava fazendo mais simulações em uma terça-feira de algumas semanas do que faria em todo o meu doutorado”, disse ele.

Em 2011, ele deu outra chance à pós-graduação, dessa vez estudando química teórica na Universidade de Chicago. Em 2017, Jumper ouviu um boato de que o Google DeepMind estava entrando na previsão de estruturas de proteínas. Ele tinha acabado de concluir seu doutorado, usando o aprendizado de máquina para simular o dobramento e a dinâmica de proteínas. Ele se candidatou a um emprego como cientista pesquisador.

“O projeto ainda era secreto”, disse ele. Se ele abordasse o tema do dobramento de proteínas em uma entrevista, a equipe do DeepMind mudava de assunto. “Você só pode fazer isso um certo número de vezes até que eu tenha certeza do que você está fazendo”, disse Jumper.

Em outubro de 2017, ele chegou ao escritório da DeepMind em Londres. Com a ajuda de Jones como consultor, a equipe já estava profundamente envolvida no desenvolvimento do AlphaFold. “Foi uma época muito divertida em que estávamos apenas jogando ideias na parede”, disse Jones. “Por fim, surgiu uma boa ideia central, e eles a seguiram.”

Para treinar seu algoritmo, a equipe do DeepMind usou mais de 140.000 estruturas do Protein Data Bank. Eles inseriram essas informações em uma rede convolucional, mas não mudaram muito a arquitetura da IA em si. Era “aprendizado de máquina padrão”, disse Jumper.

Em meados de 2018, o AlphaFold estava pronto para participar do CASP e competir com cientistas de proteínas de boa-fé. “É um pouco como uma corrida de Fórmula 1″, refletiu Jones. “Você acha que construiu o melhor carro, mas simplesmente não sabe o que as outras equipes construíram.” As apostas pareciam altas. A equipe da DeepMind debateu se deveria competir anonimamente; não queriam correr o risco de serem humilhados.

“Ninguém quer fracassar”, disse Jones. No meio acadêmico, isso faz parte do trabalho; você fracassa e segue em frente porque não tem escolha. “Mas, obviamente, se você for uma empresa de tecnologia multibilionária, não será bem visto se você tentar fazer algo e fracassar.”

Por fim, eles decidiram enviar seus resultados com o nome Google DeepMind. Alguns meses antes da reunião de dezembro, Jones recebeu informações dos organizadores da CASP. Eles sugeriram que a equipe do DeepMind comparecesse à reunião porque o AlphaFold tinha tido um desempenho muito bom.

A vitória não foi enorme - eles foram cerca de 2,5 vezes melhores na previsão de estruturas de proteínas em comparação com a segunda melhor equipe - mas a vitória causou uma boa impressão. “Ficou claro que algo interessante havia acontecido”, disse Moult.

Reiniciando o algoritmo

A vitória deveria ter energizado a equipe da DeepMind. Mas eles sabiam que não estavam nem perto de resolver o problema de dobramento de proteínas. Hassabis os havia reunido alguns meses antes. “Vamos tentar resolver isso ou não?” Jumper lembra-se dele dizendo. “Se não, vamos encontrar problemas nos quais possamos causar um impacto muito, muito grande.”

“Tivemos esse momento em que realmente decidimos: Vamos atrás de uma solução”, disse Jumper. Eles voltaram à prancheta de desenho.

Com sua formação diversificada em física, química, biologia e computação, Jumper trouxe insights originais para as sessões de brainstorming. Logo, ele estava liderando a equipe, que havia crescido de seis para 15 pessoas. “Havia algo muito único acontecendo”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e mais tarde fundou a Atomic AI, uma empresa de biotecnologia orientada por IA.

A sede do Google DeepMind fica em Londres. Foto: Divulgação/Buildington

Sob a liderança de Jumper, o AlphaFold foi reconstruído. A DeepMind projetou um novo tipo de arquitetura de transformador - um tipo deep learning que “impulsionou basicamente todos os avanços no aprendizado de máquina que aconteceram nos últimos cinco anos”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e, posteriormente, fundou a Atomic AI, uma empresa de biotecnologia orientada por IA. A rede neural ajustou a força de suas conexões para criar representações mais precisas dos dados, neste caso, dados de evolução e estrutura de proteínas. Ela passou esses dados por um segundo transformador para prever a estrutura 3D de uma proteína. Em seguida, o algoritmo aprimorou ainda mais a estrutura, executando-a, juntamente com alguns dos dados revisados, novamente por meio de seus transformadores mais algumas vezes.

Quando eles começaram a trabalhar no AlphaFold2, o algoritmo era “terrível, mas não tão terrível quanto esperávamos”, disse Jumper. “Ele criava hélices que se pareciam vagamente com uma proteína”. Mas à medida que o aprimoravam, notaram um enorme aumento na eficiência e na precisão de suas previsões.

O terremoto

No início do verão, Moult recebeu um e-mail de um avaliador do CASP: “Dê uma olhada nisso, é muito impressionante”. Em anexo ao e-mail, havia uma estrutura de proteína resolvida pelo Google DeepMind. Moult ficou de fato impressionado, mas achou que era um caso isolado.

Depois, ele recebeu outro e-mail, e mais outro. “Isso é estranho”, ele se lembra de ter pensado. Eram três, quatro, uma série de previsões quase perfeitas de proteínas - e todas da DeepMind. No final do verão, “percebemos rapidamente (...) que algo muito, muito extraordinário havia acontecido”, disse Moult.

Os avaliadores do CASP pontuam cada envio comparando a estrutura da proteína prevista com sua estrutura experimental comprovada. Uma pontuação perfeita, na qual o modelo e a realidade correspondem átomo por átomo, é 100. Moult sempre acreditou que qualquer valor acima de 90 indicaria que um algoritmo havia resolvido efetivamente a estrutura de uma proteína. A maioria das estruturas do AlphaFold atingiu ou ultrapassou a marca de 90.

Em dezembro de 2020, menos de um ano após o início da pandemia de Covid-19, Jumper apresentou o AlphaFold2 pelo Zoom na reunião virtual do CASP.

Como o restante dos participantes, Jones assistiu de casa. “Eu estava simplesmente preso... assistindo ao desenrolar da situação”, disse ele. “Não há saída porque seus colegas não estão por perto. ... Estamos todos confinados, não podemos ir a lugar algum.”

Parte 3

Choque e pavor

A biologia estrutural de repente ficou desestruturada. No início, houve “muita busca pela alma”, disse Silvio Tosatto, pesquisador da Universidade de Padua, que competiu no CASP desde seus primeiros dias. Alguns biólogos estruturais temiam que seus trabalhos se tornassem obsoletos. Outros ficaram na defensiva e alegaram que o AlphaFold2 não era preciso.

Os biólogos computacionais que estavam tentando resolver esse problema, alguns há décadas, acharam o momento agridoce. Em uma postagem de blog que escreveu após o CASP, AlQuraishi citou um participante que descreveu a sensação de se sentir como alguém cujo filho tivesse saído de casa pela primeira vez.

No entanto, mesmo em meio à apreensão em relação a essa nova e brilhante ferramenta, muitos cientistas ficaram entusiasmados. Aqueles que não faziam trabalho estrutural costumavam ter que colaborar com biólogos estruturais para determinar as estruturas das proteínas para seus experimentos mais amplos. Agora, eles podem simplesmente pressionar alguns botões e obter a estrutura por conta própria.

Na mídia, o AlphaFold2 tornou-se o novo e brilhante avanço da inteligência artificial que “mudaria tudo”. Mas foram necessários meses e anos para que os cientistas descobrissem o que o AlphaFold2 podia e não podia fazer. Cerca de seis meses após a palestra de Jumper, o Google DeepMind publicou seus resultados e compartilhou o código subjacente do AlphaFold2. “Quando o AlphaFold2 foi lançado, no dia seguinte estávamos tentando instalá-lo em nossos servidores de GPU”, disse Anastassis Perrakis, biólogo estrutural do Instituto do Câncer da Holanda e da Universidade de Utrecht. Os biólogos começaram a jogar.

Anastassis Perrakis contribuiu com estruturas experimentais de proteínas para o CASP, nas quais os biólogos computacionais testaram seus métodos Foto: Acervo Pessoal/Anastassis Perrakis

“Eu esperava que [o AlphaFold2] fosse cair”, disse Janet Thornton, biofísica da Universidade de Oxford. “Mas, na verdade, minha impressão é que ele tem tido um sucesso extraordinário.”

Começou a ficar claro que, em vez de ser uma ameaça, o AlphaFold2 poderia ser um catalisador para acelerar a pesquisa. Em vez de tirar o emprego dos biólogos estruturais, ela lhes proporcionou uma nova ferramenta para fazer melhor seu trabalho.

No entanto, isso não resultou imediatamente em todos os tipos de novos medicamentos, como algumas pessoas previram, e os pesquisadores logo perceberam que a ferramenta tem suas limitações. As previsões do AlphaFold2 não são perfeitas. Elas exigem validação experimental, disse Perrakis. Mas “você pode passar muito mais rápido para o estudo real das estruturas”. Agora, quando seus alunos iniciam um novo projeto, eles primeiro usam o AlphaFold2 para prever a estrutura de uma determinada proteína. Em seguida, realizam experimentos para validá-la.

Perrakis suspeita que ele e outros pesquisadores continuarão a usar a cristalografia de raios X até certo ponto. Mas, para desenvolver estruturas iniciais de proteínas, muitos estão começando a combinar previsões de aprendizagem profunda com técnicas avançadas de microscópio eletrônico, como o cryo-EM, que envolve o congelamento de amostras biológicas e seu bombardeio com elétrons. Assim, eles podem chegar às questões interessantes sobre o que suas proteínas fazem. O AlphaFold2 “turbinou” o crio-EM, disse AlQuraishi.

Essa mudança já começou. Em junho de 2022, uma edição especial da revista Science revelou a estrutura quase atômica de um complexo de poros nucleares humano. Essa estrutura maciça e complicada - formada por 30 proteínas diferentes - foi um dilema biológico durante décadas. Os cientistas usaram as previsões do AlphaFold2 para preencher as lacunas nas estruturas das proteínas que não foram resolvidas pelo cryo-EM.

Ver esse artigo, no qual outros cientistas usaram o AlphaFold2 para fazer uma descoberta biológica, foi o “momento em que eu soube que [o AlphaFold] era realmente importante”, disse Jumper.

A próxima fronteira

Quase imediatamente depois de ver a palestra de Jumper na conferência CASP de 2020, Baker voltou a trabalhar em seu algoritmo Rosetta. O Google ainda não havia compartilhado o código-fonte subjacente do AlphaFold2. Mesmo assim, “começamos a brincar com algumas das ideias que eles apresentaram”, disse Baker. No mesmo dia em que o Google DeepMind publicou o AlphaFold2 na Nature, ele e sua equipe anunciaram o RoseTTAFold, um rival altamente preciso do AlphaFold. O RoseTTAFold também usa deep learning para prever estruturas de proteínas, mas tem uma arquitetura subjacente muito diferente do AlphaFold2.

A RoseTTAFold não estava sozinha. Outros concorrentes da AlphaFold, incluindo a Meta, criaram seus próprios algoritmos para abordar a previsão da estrutura de proteínas ou problemas relacionados. Alguns, incluindo a startup de biotecnologia Atomic AI, de Townshend, foram além das proteínas e usaram o aprendizado profundo para entender as estruturas de RNA. Entretanto, no âmbito das previsões de estrutura única, ninguém conseguiu igualar a precisão do AlphaFold até o momento, disse Thornton. “Tenho certeza de que conseguirão, mas acho que será muito difícil conseguir outro momento (...) do AlphaFold como esse.”

No ano passado, David Baker (foto), com John Jumper e Demis Hassabis, recebeu o prêmio Frontiers of Knowledge Award in Biology and Biomedicine por seu trabalho que revolucionou o estudo e o design de proteínas com inteligência artificial.  Foto: Divulgação/BBVA Foundation

Exercício de confiança

É inegável que o sucesso do AlphaFold2 mudou a atitude dos biólogos em relação à inteligência artificial. Durante muito tempo, muitos biólogos experimentais desconfiavam da computação. Eles entendiam que algumas abordagens de aprendizado de máquina podem fazer com que os dados pareçam melhores do que são. Então, o Google DeepMind demonstrou “inequivocamente que é possível fazer um trabalho sério com isso”, disse AlQuraishi. Qualquer ceticismo agora é acompanhado de: “Bem, e quanto ao AlphaFold?”

Um recurso da plataforma AlphaFold2 contribui para essa confiança: ela não apenas gera um modelo 3D de uma proteína, mas também autoavalia a precisão de sua previsão, classificando diferentes partes da estrutura em uma escala de confiança de zero a 100.

Em julho de 2022, depois que o Google DeepMind divulgou as previsões de estrutura de 218 milhões de proteínas - quase todas as conhecidas no mundo - Paul Adams, biólogo estrutural, decidiu analisar os autorrelatos do AlphaFold2. Ele comparou as previsões com as estruturas resolvidas das proteínas e avaliou sua precisão de forma independente.

A “boa notícia é que, quando o AlphaFold acha que está certo, ele geralmente está muito certo”, disse Adams. “Quando ele acha que não está certo, geralmente não está.” No entanto, em cerca de 10% dos casos em que o AlphaFold2 estava “muito confiante” em sua previsão (uma pontuação de pelo menos 90 de 100 na escala de confiança), ele não deveria estar, relatou: as previsões não correspondiam ao que foi visto experimentalmente.

O fato de o sistema de IA parecer ter algum ceticismo pode inspirar uma confiança excessiva em suas conclusões. A maioria dos biólogos vê o AlphaFold2 pelo que ele é: uma ferramenta de previsão. Mas outros estão levando isso longe demais. Alguns biólogos celulares e bioquímicos que costumavam trabalhar com biólogos estruturais os substituíram pelo AlphaFold2 e tomam suas previsões como verdadeiras. Às vezes, os cientistas publicam artigos com estruturas de proteínas que, para qualquer biólogo estrutural, são obviamente incorretas, disse Perrakis. “E eles dizem: ‘Bem, essa é a estrutura da AlphaFold’”.

Embora o AlphaFold2 seja excelente para prever as estruturas de proteínas pequenas e simples, ele é menos preciso para prever aquelas que contêm várias partes. Ele também não é capaz de levar em conta o ambiente da proteína ou as ligações com outras moléculas, que alteram a forma de uma proteína na natureza. Às vezes, uma proteína precisa estar cercada por determinados íons, sais ou metais para se dobrar adequadamente.

Há também vários tipos de proteínas dinâmicas que o AlphaFold2 prevê de forma ruim, mas que não são menos importantes em termos de função. As proteínas que mudam de forma, também conhecidas como proteínas de troca de dobras, não são estáticas: suas formas mudam à medida que interagem com outras moléculas. Algumas se dobram em formas dramaticamente diferentes, apesar de terem a mesma sequência de aminoácidos.

Em comparação com as centenas de milhares de proteínas estáticas e de estrutura única com as quais o algoritmo do DeepMind foi treinado, há apenas cerca de 100 exemplos de proteínas que mudam de dobra, embora certamente existam mais.

Complexidade celular

O interior das células é complicado e caótico. A membrana externa de uma célula envolve um ambiente bioquímico densamente lotado de partes moleculares - proteínas, moléculas de sinalização, RNA mensageiro, organelas e muito mais. As proteínas se ligam umas às outras e a outras moléculas, o que altera suas formas e funções.

A capacidade do AlphaFold2 de prever a estrutura de uma única proteína não leva os biólogos nem perto de compreender as proteínas nesse intrincado ambiente nativo. Mas essa é a direção que o campo está tomando agora. Os gigantes da inteligência artificial da ciência das proteínas, o Google DeepMind e o Institute for Protein Design de David Baker, estão agora desenvolvendo seus algoritmos de aprendizagem profunda para prever as estruturas que as proteínas assumem ao interagir com outras moléculas.

Na primavera de 2024, ambos publicaram artigos descrevendo desenvolvimentos semelhantes nessa área. As atualizações de seus algoritmos - lançados com os novos nomes AlphaFold3 e RoseTTAFold All-Atom - permitem que eles prevejam as estruturas de proteínas ligadas umas às outras, ao DNA, ao RNA e a outras moléculas pequenas.

As proteínas não trabalham sozinhas: elas interagem constantemente com outras moléculas. Essa representação de uma paisagem celular é feita de modelos de proteínas reais e outras moléculas em "uma tentativa de visualizar a grande complexidade e a beleza da coreografia molecular da célula", escreveu seu criador, Gael McGill. Foto: Evan Ingersoll and Gaël McGill, PhD/Digizyme Inc

Os biólogos estão apenas começando a testar essas atualizações. Até agora, o AlphaFold3 é muito mais preciso do que o RoseTTAFold All-Atom, disse AlQuraishi - mas não é um salto tão grande quanto um “momento AlphaFold2″. Para algumas macromoléculas, como as estruturas de RNA, sua precisão permanece abaixo da de outros sistemas e experimentos baseados em física.

Mesmo assim, os novos algoritmos são um passo na direção certa. As interações entre proteínas e outras moléculas são essenciais para seu funcionamento nas células. Para desenvolver medicamentos que possam se acoplar às proteínas e alterar sua atividade conforme desejado, os pesquisadores precisam entender como são esses complexos. No entanto, é improvável que qualquer um dos algoritmos leve a novos medicamentos em breve, disse Adams. “Ambos os métodos ainda são limitados em sua precisão, [mas] ambos são melhorias significativas em relação ao que era possível.”

Há uma outra grande mudança no novo produto da DeepMind. O código subjacente do AlphaFold2 era de código aberto para que outros pesquisadores pudessem estudar o algoritmo e refazê-lo para seus próprios projetos. No entanto, em vez de compartilhar o código-fonte do AlphaFold3, o Google optou, até o momento, por protegê-lo como um segredo comercial. “Pelo menos por enquanto, ninguém pode executá-lo e usá-lo como fizeram com o [AlphaFold2]”, disse AlQuraishi.

Mesmo antes do lançamento do AlphaFold3, os pesquisadores estavam testando o AlphaFold2 para ver se ele poderia fornecer informações úteis sobre proteínas em diferentes conformações. Brenda Rubenstein, professora associada de química e física da Brown University, estava interessada em quinases, um tipo de proteína que ativa outras proteínas. Especificamente, ela queria entender o mecanismo de uma quinase que causa câncer para que pudesse desenvolver medicamentos mais precisos contra ela. Seu laboratório modelou a estrutura da quinase usando uma abordagem baseada na física, que mapeia as coordenadas 3D dos átomos usando as leis de Newton. Isso levou dois anos e meio.

“Há cerca de um ano, dissemos: podemos fazer isso mais rápido?” disse Rubenstein. Eles tentaram usar o AlphaFold2 de uma forma inovadora. Ao fornecer dados sobre proteínas relacionadas ao algoritmo, ela descobriu que ele podia prever sua quinase em diferentes conformações com mais de 80% de precisão.

A visão de alguém de fora

Quando o CASP 2020 chegou, muitos pesquisadores esperavam que um avanço na previsão de estruturas viesse por meio da inteligência artificial. “Tudo estava caminhando nessa direção”, disse Townshend. Mas eles não esperavam que isso viesse de uma empresa de tecnologia multibilionária, e não esperavam que fosse tão cedo. Alguns disseram que o AlphaFold2 não era uma façanha da nova ciência, mas sim uma engenharia inteligente. Alguns ficaram surpresos com o fato de os algoritmos de David Baker não terem levado o troféu. Outros ficaram menos surpresos por causa dos recursos inigualáveis do Google DeepMind.

Cerca de 100 laboratórios participam do CASP todos os anos e, embora tenham começado a adotar tecnologias de IA, eles “provavelmente não tinham a experiência que o DeepMind tinha, nem o poder de computação”, disse Thornton. O DeepMind “tinha acesso a um poder de computação basicamente ilimitado”.

Ela também especulou que a falta de conhecimento especializado do Google em ciência de proteínas pode tê-los liberado de forma criativa. “Eles tinham um único objetivo”, disse Thornton, e se concentraram na criação de uma excelente rede neural. Os biólogos de proteínas tinham bagagem. Enquanto trabalhavam em suas ferramentas de IA, eles queriam capturar a física molecular de nível atômico e a química envolvida no dobramento de proteínas. O DeepMind tinha uma abordagem diferente: transformaremos os dados de sequência em uma estrutura 3D, e não importa como chegaremos lá.

O novo mundo

Setenta anos atrás, acreditava-se que as proteínas eram uma substância gelatinosa. O campo da biologia de proteínas é “mais empolgante agora do que era antes do AlphaFold”, disse Perrakis. A empolgação vem da promessa de reviver a descoberta de medicamentos com base na estrutura, da aceleração na criação de hipóteses e da esperança de compreender as interações complexas que ocorrem nas células.

“É como a revolução genômica”, disse AlQuraishi. Há tantos dados, e os biólogos, seja em seus laboratórios úmidos ou na frente de seus computadores, estão apenas começando a descobrir o que fazer com tudo isso.

Mas, assim como outras descobertas de inteligência artificial que estão surgindo em todo o mundo, essa pode ter um teto.

O sucesso do AlphaFold2 se baseou na disponibilidade de dados de treinamento - centenas de milhares de estruturas de proteínas meticulosamente determinadas pelas mãos de experimentadores pacientes. Embora o AlphaFold3 e os algoritmos relacionados tenham demonstrado algum sucesso na determinação das estruturas de compostos moleculares, sua precisão está aquém da de seus predecessores de proteína única. Isso se deve, em parte, ao fato de haver muito menos dados de treinamento disponíveis.

O problema de dobragem de proteínas foi “quase um exemplo perfeito para uma solução de IA”, disse Thornton, porque o algoritmo poderia ser treinado em centenas de milhares de estruturas de proteínas coletadas de maneira uniforme. No entanto, o Protein Data Bank pode ser um exemplo incomum de compartilhamento organizado de dados em biologia. Sem dados de alta qualidade para treinar algoritmos, eles não farão previsões precisas.

“Tivemos sorte”, disse Jumper. “Encontramos o problema no momento em que ele estava pronto para ser resolvido.”

Ninguém sabe se o sucesso do deep learning na solução do problema de dobramento de proteínas será levado a outros campos da ciência ou mesmo a outras áreas da biologia. Mas alguns, como AlQuraishi, estão otimistas. “O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”, disse ele. Os químicos, por exemplo, precisam realizar cálculos caros do ponto de vista computacional. Com a aprendizagem profunda, esses cálculos já estão sendo feitos até um milhão de vezes mais rápido do que antes, disse AlQuraishi.

A inteligência artificial pode claramente avançar em tipos específicos de questões científicas. Mas ela pode levar os cientistas apenas até certo ponto no avanço do conhecimento. “Historicamente, a ciência tem se dedicado a compreender a natureza”, disse AlQuraishi - os processos que fundamentam a vida e o universo. Se a ciência avançar com ferramentas de aprendizagem profunda que revelam soluções e nenhum processo, será que isso é realmente ciência?

O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”

Mohammed AlQuraishi, da Universidade de Columbia

Se muitos pesquisadores decidirem desistir de compreender os processos da natureza, então a inteligência artificial não terá mudado apenas a ciência - ela terá mudado os cientistas também.

A próxima reunião do CASP será realizada em dezembro de 2024 nas águas do Mar do Caribe. Os ventos são cordiais, como provavelmente será a conversa. O barulho já diminuiu há muito tempo - pelo menos em voz alta. Não se sabe como será a competição deste ano. Mas se os últimos CASPs são alguma indicação, Moult sabe que deve esperar apenas uma coisa: “surpresas”.

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How AI Revolutionized Protein Science, but Didn’t End It.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Em dezembro de 2020, quando os bloqueios da pandemia impossibilitaram reuniões presenciais, centenas de cientistas da computação se reuniram em frente às suas telas para assistir ao desenrolar de uma nova era da ciência.

Na conferência, realizada a cada dois anos, os cientistas colocaram à prova suas mais recentes ferramentas de dobramento de proteínas. Mas uma solução sempre esteve fora de alcance. Alguns deles haviam passado toda a sua carreira tentando melhorar cada vez mais essas previsões. Essas competições foram marcadas por passos de bebê, e os pesquisadores tinham poucos motivos para pensar que 2020 seria diferente.

Eles estavam errados quanto a isso.

Naquela semana, um recém-chegado à comunidade de ciência de proteínas chamado John Jumper apresentou uma nova ferramenta de inteligência artificial, o AlphaFold2, que surgiu nos escritórios do Google DeepMind, o braço de inteligência artificial (IA) da empresa de tecnologia em Londres. No Zoom, ele apresentou dados que mostravam que os modelos preditivos do AlphaFold2 de estruturas de proteínas em 3D eram mais de 90% precisos - cinco vezes melhores do que os de seu concorrente mais próximo.

Em um instante, o problema de dobragem de proteínas passou de impossível a indolor. O sucesso da inteligência artificial onde a mente humana havia se atrapalhado abalou a comunidade de biólogos. “Fiquei em choque”, disse Mohammed AlQuraishi, biólogo de sistemas do Programa de Genômica Matemática da Universidade de Columbia, que participou da reunião. “Muitas pessoas estavam em negação.”

Mas, nas observações finais da conferência, seu organizador, John Moult, deixou pouca margem para dúvidas: O AlphaFold2 havia “resolvido em grande parte” o problema de dobramento de proteínas - e mudado a ciência das proteínas para sempre. Sentado em frente a uma estante de livros em seu escritório em casa, vestindo uma gola alta preta e clicando em seus slides no Zoom, Moult falou em um tom animado, mas também ameaçador. “Isso não é um fim, mas um começo”, disse ele.

Isso foi há três anos e meio. Finalmente é possível começar a responder a essa questão.

AlphaFold3, versão mais recente da IA do Google DeepMind, foi lançado em maio deste ano  Foto: Divulgação/Google DeepMind

Talvez o maior impacto do AlphaFold2 tenha sido chamar a atenção dos biólogos para o poder da inteligência artificial. E seu sucessor, o AlphaFold3, que foi anunciado em maio de 2024, passou para a próxima fase da previsão biológica ao modelar as estruturas das proteínas em combinação com outras moléculas, como DNA ou RNA.

“É a maior história de ‘aprendizado de máquina na ciência’ que já existiu”, disse AlQuraishi.

Entretanto, ainda há grandes lacunas que a inteligência artificial não preencheu. Essas ferramentas não conseguem simular como as proteínas mudam ao longo do tempo ou modelá-las no contexto em que existem: dentro das células. “O AlphaFold mudou tudo e nada”, disse Paul Adams, biólogo estrutural que desenvolve algoritmos para modelar as estruturas de biomoléculas no Lawrence Berkeley National Laboratory.

Esta é a história de como a equipe de Jumper no Google DeepMind conseguiu realizar seu golpe na ciência das proteínas e o que isso significa para o futuro da inteligência artificial na biologia.

As proteínas são moléculas que se apresentam em centenas de milhões de formas diferentes. Cada uma delas tem uma função biológica específica, desde o transporte de oxigênio pelo sangue até o desencadeamento de reações químicas. Em geral, a função é definida por sua forma ou estrutura. Foto: Quanta Magazine

Parte 1

Formulação do problema

Uma longa cadeia de moléculas de aminoácidos não tem função até que se dobre espontaneamente em sua forma inata, que os biólogos chamam de estrutura. A estrutura de uma proteína determina como ela se liga ou interage com outras moléculas e, portanto, define seu papel em uma célula.

“Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca”, disse AlQuraishi. “É onde tudo acontece.”

Se as proteínas não realizassem esse processo de dobragem extremamente bem, uma cascata de desastres se espalharia pelo corpo. Uma proteína dobrada ou desdobrada incorretamente pode levar à toxicidade e à morte celular. Muitas doenças e distúrbios, como a anemia falciforme, são causados por proteínas mal dobradas. E as proteínas mal dobradas podem se agregar em aglomerados que são marcas registradas de doenças neurodegenerativas como Alzheimer e Parkinson.

No entanto, ninguém sabe ao certo como ocorre o dobramento das proteínas. Como as informações da sequência nessas cadeias moleculares simples codificam a forma complexa de uma proteína? Essa é a “pergunta mais profunda que podemos fazer”, disse George Rose, professor emérito de biofísica da Universidade Johns Hopkins.

Depois que sua cadeia polipeptídica é montada, uma proteína pode se dobrar em sua estrutura em um milésimo de segundo. Com o passar do tempo, o problema do dobramento de proteínas se dividiu em novos tipos de problemas. Agora, três questões principais são colocadas: A estrutura de uma proteína pode ser prevista a partir de sua sequência de aminoácidos? Qual é o código de dobramento? E qual é o mecanismo de dobragem?

Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca. É onde tudo acontece.”

Mohammed AlQuraishi, biólogo da Universidade de Columbia

À medida que surgiam mais estruturas, a comunidade da ciência das proteínas precisava de uma maneira de organizá-las e compartilhá-las. Em 1971, o Protein Data Bank foi fundado como um arquivo de estruturas de proteínas. Disponível gratuitamente, o banco de dados tornou-se uma ferramenta confiável para qualquer pessoa que precisasse conhecer a estrutura de uma proteína para investigar uma questão biológica.

Quando o Protein Data Bank foi inaugurado, ele continha as estruturas de sete proteínas. Quando o Google DeepMind o utilizou para treinar o AlphaFold2, quase 50 anos depois, ele continha mais de 140.000 - cada uma delas laboriosamente decodificada pelos cientistas conhecidos como biólogos estruturais.

Conferência tem início

No início da década de 1990, John Moult, pesquisador da Universidade de Maryland, e seu colega Krzysztof Fidelis tiveram uma ideia para trazer disciplina ao caos do campo. Eles criaram um experimento científico comunitário que chamaram de Avaliação Crítica da Previsão de Estrutura, ou CASP, na sigla em inglês.

A ideia era simples. Como organizadores do CASP, Moult e Fidelis publicariam uma lista de sequências de aminoácidos para proteínas cujas estruturas tivessem sido resolvidas recentemente e fornecidas a eles por experimentalistas, mas cujos resultados ainda não tivessem sido publicados. Em seguida, grupos de computação de todo o mundo fariam o possível para prever a estrutura da proteína usando o método que desejassem. Um grupo independente de cientistas avaliaria os modelos comparando suas respostas com as estruturas confirmadas experimentalmente.

John Moult foi cofundador do experimento CASP (Critical Assessment of Structure Prediction) para forçar a si mesmo e a outros biólogos computacionais a testar seus modelos computacionais de proteínas em comparação com estruturas de proteínas determinadas experimentalmente. Foto: Quanta Magazine

Em 1996, após o término do segundo CASP, um jovem chamado David Baker pediu a David Jones, professor de bioinformática da University College London, para dividir um táxi até o aeroporto. Baker havia assistido à palestra de Jones e estava trabalhando em seu próprio modelo computacional. Ele não estava pronto para esse CASP, mas queria conversar sobre ele. Jones ouviu suas ideias no táxi e não esperava vê-lo novamente.

Na competição seguinte, em 1998, Baker abriu as portas com seu algoritmo Rosetta. Ele se tornou “o homem a ser batido”, disse Jones.

Algoritmos como o Rosetta modelaram as interações entre os átomos das moléculas de aminoácidos para prever como elas se dobrariam. Eles “mostraram que realmente era possível prever a estrutura das proteínas”, disse Baker. “Mas não era bom ou preciso o suficiente para ser útil.”

Os biólogos computacionais aprimoraram as ferramentas estatísticas. Em 2016, a precisão da previsão de contatos subiu para 47%. Dois anos depois, chegou a 70%. O algoritmo de Baker se baseou nesse sucesso: Em 2014, o Rosetta produziu duas estruturas de proteínas tão precisas que um avaliador do CASP achou que Baker poderia ter resolvido o problema de dobramento de proteínas.

No entanto, isso levou o campo apenas até certo ponto. A coevolução exigia uma abundância de proteínas semelhantes para comparação, e os experimentalistas não estavam resolvendo estruturas de proteínas com rapidez suficiente para suprir as necessidades dos computacionalistas.

David Baker, que agora é um dos maiores especialistas em design de proteínas do mundo, foi o homem a ser batido no CASP com seu algoritmo de alto desempenho chamado Rosetta. Foto: Divulgação/BBVA Foundation

Parte 2

Fora das profundezas

Em 2016, David Jones teve um vislumbre do futuro em um novo artigo publicado na Nature. Pesquisadores do Google DeepMind, uma equipe de inteligência artificial sediada em Londres, detalharam como seu algoritmo, que usava um método conhecido como aprendizagem profunda, havia vencido um campeão humano em um antigo jogo de tabuleiro chamado Go.

Jones ficou surpreso. “As coisas estão acontecendo”, ele se lembra de ter pensado na época. “Eu realmente vou ter que entrar nessa aprendizagem profunda”.

No mesmo ano, quando o cofundador da DeepMind, Demis Hassabis, estava em Seul assistindo seu sistema de IA AlphaGo vencer um campeão mundial humano no antigo jogo de Go, ele se perguntou: se os pesquisadores do DeepMind puderam escrever um algoritmo para imitar a intuição dos mestres do Go, eles não poderiam escrever um para imitar a intuição dos jogadores do Foldit, um jogo que permitia “brincar” com a estrutura de moléculas, que não sabiam nada sobre biologia, mas podiam dobrar proteínas?

Em pouco tempo, os grupos de estrutura de proteínas começaram a se envolver com deep learning. Mohammed AlQuraish, um biólogo molecular, e sua equipe foram os primeiros a desenvolver uma abordagem capaz de prever diretamente a estrutura da proteína exclusivamente com redes neurais, no que é chamado de método “ponta a ponta” - só que não funcionou muito bem. Outros se perguntaram como poderiam mergulhar em uma nova abordagem que parecia tão importante.

Em 2016, o AlphaGo, um sistema de IA do Google DeepMind, derrotou Lee Sedol (à direita), o campeão mundial do antigo jogo de Go. Sua capacidade de imitar a intuição humana chamou a atenção dos biólogos para o potencial da aprendizagem profunda na ciência das proteínas. Foto: Divulgação/Google DeepMind

“Eu não sabia exatamente o que queria fazer com deep learning, mas percebi que precisava estar fazendo deep learning”, disse Jones.

Jones havia começado a escrever pedidos de subsídios para encontrar seu caminho quando recebeu um e-mail do Google DeepMind. Eles perguntaram a Jones sobre a competição CASP e ofereceram ajuda. “Eu simplesmente presumi que eles queriam dizer: temos muito poder computacional”, disse Jones.

Depois que ele os conheceu, ficou óbvio que o Google tinha ambições maiores. Mas, para realizá-las, o gigante da tecnologia precisaria de mais inteligência científica.

Um novo jogador em campo

Em 2016, quando Jones começou a trabalhar como consultor para o Google DeepMind em um projeto que mais tarde seria conhecido como AlphaFold, John Jumper estava concluindo seu doutorado em química teórica na Universidade de Chicago.

Como estudante de graduação na Universidade de Vanderbilt, ele participou de uma colaboração com pesquisadores do Fermi National Accelerator Laboratory para estudar as estranhas propriedades das partículas subatômicas chamadas quarks. Um dia, quando estava sentado em uma mesa de almoço com os pesquisadores, ele recebeu uma notícia desagradável. “Então, esse experimento em que estamos trabalhando - quando ele será ativado?” Jumper se lembra de ter perguntado a eles. Um dos professores disse que provavelmente se aposentaria primeiro. O outro, um pouco mais velho, disse que talvez não vivesse para ver isso.

“Eu queria fazer ciência em um período de tempo um pouco mais curto do que esse”, disse Jumper. Ele havia conseguido um emprego na D.E. Shaw Research, uma empresa de Nova York que, na época, estava criando simulações básicas de proteínas. Ao compreender como as proteínas se movem e mudam, eles esperavam entender melhor os mecanismos de várias doenças, como o câncer de pulmão.

John Jumper suspeitava que os biólogos haviam estudado estruturas de proteínas suficientes para resolver o problema de dobramento de proteínas. "Eu acreditava que os dados eram suficientes", disse Jumper, que começou a trabalhar no Google DeepMind em 2017. Mas "as ideias não eram". Foto: Divulgação/Google DeepMind

Foi a primeira vez que Jumper compreendeu a importância potencial de seu trabalho. “Trata-se de saúde e de prolongar a vida das pessoas”, disse ele. Nos três anos seguintes, Jumper modelou os movimentos das proteínas nos supercomputadores da empresa, que haviam sido construídos especificamente para simular moléculas mais rapidamente. “Eu estava fazendo mais simulações em uma terça-feira de algumas semanas do que faria em todo o meu doutorado”, disse ele.

Em 2011, ele deu outra chance à pós-graduação, dessa vez estudando química teórica na Universidade de Chicago. Em 2017, Jumper ouviu um boato de que o Google DeepMind estava entrando na previsão de estruturas de proteínas. Ele tinha acabado de concluir seu doutorado, usando o aprendizado de máquina para simular o dobramento e a dinâmica de proteínas. Ele se candidatou a um emprego como cientista pesquisador.

“O projeto ainda era secreto”, disse ele. Se ele abordasse o tema do dobramento de proteínas em uma entrevista, a equipe do DeepMind mudava de assunto. “Você só pode fazer isso um certo número de vezes até que eu tenha certeza do que você está fazendo”, disse Jumper.

Em outubro de 2017, ele chegou ao escritório da DeepMind em Londres. Com a ajuda de Jones como consultor, a equipe já estava profundamente envolvida no desenvolvimento do AlphaFold. “Foi uma época muito divertida em que estávamos apenas jogando ideias na parede”, disse Jones. “Por fim, surgiu uma boa ideia central, e eles a seguiram.”

Para treinar seu algoritmo, a equipe do DeepMind usou mais de 140.000 estruturas do Protein Data Bank. Eles inseriram essas informações em uma rede convolucional, mas não mudaram muito a arquitetura da IA em si. Era “aprendizado de máquina padrão”, disse Jumper.

Em meados de 2018, o AlphaFold estava pronto para participar do CASP e competir com cientistas de proteínas de boa-fé. “É um pouco como uma corrida de Fórmula 1″, refletiu Jones. “Você acha que construiu o melhor carro, mas simplesmente não sabe o que as outras equipes construíram.” As apostas pareciam altas. A equipe da DeepMind debateu se deveria competir anonimamente; não queriam correr o risco de serem humilhados.

“Ninguém quer fracassar”, disse Jones. No meio acadêmico, isso faz parte do trabalho; você fracassa e segue em frente porque não tem escolha. “Mas, obviamente, se você for uma empresa de tecnologia multibilionária, não será bem visto se você tentar fazer algo e fracassar.”

Por fim, eles decidiram enviar seus resultados com o nome Google DeepMind. Alguns meses antes da reunião de dezembro, Jones recebeu informações dos organizadores da CASP. Eles sugeriram que a equipe do DeepMind comparecesse à reunião porque o AlphaFold tinha tido um desempenho muito bom.

A vitória não foi enorme - eles foram cerca de 2,5 vezes melhores na previsão de estruturas de proteínas em comparação com a segunda melhor equipe - mas a vitória causou uma boa impressão. “Ficou claro que algo interessante havia acontecido”, disse Moult.

Reiniciando o algoritmo

A vitória deveria ter energizado a equipe da DeepMind. Mas eles sabiam que não estavam nem perto de resolver o problema de dobramento de proteínas. Hassabis os havia reunido alguns meses antes. “Vamos tentar resolver isso ou não?” Jumper lembra-se dele dizendo. “Se não, vamos encontrar problemas nos quais possamos causar um impacto muito, muito grande.”

“Tivemos esse momento em que realmente decidimos: Vamos atrás de uma solução”, disse Jumper. Eles voltaram à prancheta de desenho.

Com sua formação diversificada em física, química, biologia e computação, Jumper trouxe insights originais para as sessões de brainstorming. Logo, ele estava liderando a equipe, que havia crescido de seis para 15 pessoas. “Havia algo muito único acontecendo”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e mais tarde fundou a Atomic AI, uma empresa de biotecnologia orientada por IA.

A sede do Google DeepMind fica em Londres. Foto: Divulgação/Buildington

Sob a liderança de Jumper, o AlphaFold foi reconstruído. A DeepMind projetou um novo tipo de arquitetura de transformador - um tipo deep learning que “impulsionou basicamente todos os avanços no aprendizado de máquina que aconteceram nos últimos cinco anos”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e, posteriormente, fundou a Atomic AI, uma empresa de biotecnologia orientada por IA. A rede neural ajustou a força de suas conexões para criar representações mais precisas dos dados, neste caso, dados de evolução e estrutura de proteínas. Ela passou esses dados por um segundo transformador para prever a estrutura 3D de uma proteína. Em seguida, o algoritmo aprimorou ainda mais a estrutura, executando-a, juntamente com alguns dos dados revisados, novamente por meio de seus transformadores mais algumas vezes.

Quando eles começaram a trabalhar no AlphaFold2, o algoritmo era “terrível, mas não tão terrível quanto esperávamos”, disse Jumper. “Ele criava hélices que se pareciam vagamente com uma proteína”. Mas à medida que o aprimoravam, notaram um enorme aumento na eficiência e na precisão de suas previsões.

O terremoto

No início do verão, Moult recebeu um e-mail de um avaliador do CASP: “Dê uma olhada nisso, é muito impressionante”. Em anexo ao e-mail, havia uma estrutura de proteína resolvida pelo Google DeepMind. Moult ficou de fato impressionado, mas achou que era um caso isolado.

Depois, ele recebeu outro e-mail, e mais outro. “Isso é estranho”, ele se lembra de ter pensado. Eram três, quatro, uma série de previsões quase perfeitas de proteínas - e todas da DeepMind. No final do verão, “percebemos rapidamente (...) que algo muito, muito extraordinário havia acontecido”, disse Moult.

Os avaliadores do CASP pontuam cada envio comparando a estrutura da proteína prevista com sua estrutura experimental comprovada. Uma pontuação perfeita, na qual o modelo e a realidade correspondem átomo por átomo, é 100. Moult sempre acreditou que qualquer valor acima de 90 indicaria que um algoritmo havia resolvido efetivamente a estrutura de uma proteína. A maioria das estruturas do AlphaFold atingiu ou ultrapassou a marca de 90.

Em dezembro de 2020, menos de um ano após o início da pandemia de Covid-19, Jumper apresentou o AlphaFold2 pelo Zoom na reunião virtual do CASP.

Como o restante dos participantes, Jones assistiu de casa. “Eu estava simplesmente preso... assistindo ao desenrolar da situação”, disse ele. “Não há saída porque seus colegas não estão por perto. ... Estamos todos confinados, não podemos ir a lugar algum.”

Parte 3

Choque e pavor

A biologia estrutural de repente ficou desestruturada. No início, houve “muita busca pela alma”, disse Silvio Tosatto, pesquisador da Universidade de Padua, que competiu no CASP desde seus primeiros dias. Alguns biólogos estruturais temiam que seus trabalhos se tornassem obsoletos. Outros ficaram na defensiva e alegaram que o AlphaFold2 não era preciso.

Os biólogos computacionais que estavam tentando resolver esse problema, alguns há décadas, acharam o momento agridoce. Em uma postagem de blog que escreveu após o CASP, AlQuraishi citou um participante que descreveu a sensação de se sentir como alguém cujo filho tivesse saído de casa pela primeira vez.

No entanto, mesmo em meio à apreensão em relação a essa nova e brilhante ferramenta, muitos cientistas ficaram entusiasmados. Aqueles que não faziam trabalho estrutural costumavam ter que colaborar com biólogos estruturais para determinar as estruturas das proteínas para seus experimentos mais amplos. Agora, eles podem simplesmente pressionar alguns botões e obter a estrutura por conta própria.

Na mídia, o AlphaFold2 tornou-se o novo e brilhante avanço da inteligência artificial que “mudaria tudo”. Mas foram necessários meses e anos para que os cientistas descobrissem o que o AlphaFold2 podia e não podia fazer. Cerca de seis meses após a palestra de Jumper, o Google DeepMind publicou seus resultados e compartilhou o código subjacente do AlphaFold2. “Quando o AlphaFold2 foi lançado, no dia seguinte estávamos tentando instalá-lo em nossos servidores de GPU”, disse Anastassis Perrakis, biólogo estrutural do Instituto do Câncer da Holanda e da Universidade de Utrecht. Os biólogos começaram a jogar.

Anastassis Perrakis contribuiu com estruturas experimentais de proteínas para o CASP, nas quais os biólogos computacionais testaram seus métodos Foto: Acervo Pessoal/Anastassis Perrakis

“Eu esperava que [o AlphaFold2] fosse cair”, disse Janet Thornton, biofísica da Universidade de Oxford. “Mas, na verdade, minha impressão é que ele tem tido um sucesso extraordinário.”

Começou a ficar claro que, em vez de ser uma ameaça, o AlphaFold2 poderia ser um catalisador para acelerar a pesquisa. Em vez de tirar o emprego dos biólogos estruturais, ela lhes proporcionou uma nova ferramenta para fazer melhor seu trabalho.

No entanto, isso não resultou imediatamente em todos os tipos de novos medicamentos, como algumas pessoas previram, e os pesquisadores logo perceberam que a ferramenta tem suas limitações. As previsões do AlphaFold2 não são perfeitas. Elas exigem validação experimental, disse Perrakis. Mas “você pode passar muito mais rápido para o estudo real das estruturas”. Agora, quando seus alunos iniciam um novo projeto, eles primeiro usam o AlphaFold2 para prever a estrutura de uma determinada proteína. Em seguida, realizam experimentos para validá-la.

Perrakis suspeita que ele e outros pesquisadores continuarão a usar a cristalografia de raios X até certo ponto. Mas, para desenvolver estruturas iniciais de proteínas, muitos estão começando a combinar previsões de aprendizagem profunda com técnicas avançadas de microscópio eletrônico, como o cryo-EM, que envolve o congelamento de amostras biológicas e seu bombardeio com elétrons. Assim, eles podem chegar às questões interessantes sobre o que suas proteínas fazem. O AlphaFold2 “turbinou” o crio-EM, disse AlQuraishi.

Essa mudança já começou. Em junho de 2022, uma edição especial da revista Science revelou a estrutura quase atômica de um complexo de poros nucleares humano. Essa estrutura maciça e complicada - formada por 30 proteínas diferentes - foi um dilema biológico durante décadas. Os cientistas usaram as previsões do AlphaFold2 para preencher as lacunas nas estruturas das proteínas que não foram resolvidas pelo cryo-EM.

Ver esse artigo, no qual outros cientistas usaram o AlphaFold2 para fazer uma descoberta biológica, foi o “momento em que eu soube que [o AlphaFold] era realmente importante”, disse Jumper.

A próxima fronteira

Quase imediatamente depois de ver a palestra de Jumper na conferência CASP de 2020, Baker voltou a trabalhar em seu algoritmo Rosetta. O Google ainda não havia compartilhado o código-fonte subjacente do AlphaFold2. Mesmo assim, “começamos a brincar com algumas das ideias que eles apresentaram”, disse Baker. No mesmo dia em que o Google DeepMind publicou o AlphaFold2 na Nature, ele e sua equipe anunciaram o RoseTTAFold, um rival altamente preciso do AlphaFold. O RoseTTAFold também usa deep learning para prever estruturas de proteínas, mas tem uma arquitetura subjacente muito diferente do AlphaFold2.

A RoseTTAFold não estava sozinha. Outros concorrentes da AlphaFold, incluindo a Meta, criaram seus próprios algoritmos para abordar a previsão da estrutura de proteínas ou problemas relacionados. Alguns, incluindo a startup de biotecnologia Atomic AI, de Townshend, foram além das proteínas e usaram o aprendizado profundo para entender as estruturas de RNA. Entretanto, no âmbito das previsões de estrutura única, ninguém conseguiu igualar a precisão do AlphaFold até o momento, disse Thornton. “Tenho certeza de que conseguirão, mas acho que será muito difícil conseguir outro momento (...) do AlphaFold como esse.”

No ano passado, David Baker (foto), com John Jumper e Demis Hassabis, recebeu o prêmio Frontiers of Knowledge Award in Biology and Biomedicine por seu trabalho que revolucionou o estudo e o design de proteínas com inteligência artificial.  Foto: Divulgação/BBVA Foundation

Exercício de confiança

É inegável que o sucesso do AlphaFold2 mudou a atitude dos biólogos em relação à inteligência artificial. Durante muito tempo, muitos biólogos experimentais desconfiavam da computação. Eles entendiam que algumas abordagens de aprendizado de máquina podem fazer com que os dados pareçam melhores do que são. Então, o Google DeepMind demonstrou “inequivocamente que é possível fazer um trabalho sério com isso”, disse AlQuraishi. Qualquer ceticismo agora é acompanhado de: “Bem, e quanto ao AlphaFold?”

Um recurso da plataforma AlphaFold2 contribui para essa confiança: ela não apenas gera um modelo 3D de uma proteína, mas também autoavalia a precisão de sua previsão, classificando diferentes partes da estrutura em uma escala de confiança de zero a 100.

Em julho de 2022, depois que o Google DeepMind divulgou as previsões de estrutura de 218 milhões de proteínas - quase todas as conhecidas no mundo - Paul Adams, biólogo estrutural, decidiu analisar os autorrelatos do AlphaFold2. Ele comparou as previsões com as estruturas resolvidas das proteínas e avaliou sua precisão de forma independente.

A “boa notícia é que, quando o AlphaFold acha que está certo, ele geralmente está muito certo”, disse Adams. “Quando ele acha que não está certo, geralmente não está.” No entanto, em cerca de 10% dos casos em que o AlphaFold2 estava “muito confiante” em sua previsão (uma pontuação de pelo menos 90 de 100 na escala de confiança), ele não deveria estar, relatou: as previsões não correspondiam ao que foi visto experimentalmente.

O fato de o sistema de IA parecer ter algum ceticismo pode inspirar uma confiança excessiva em suas conclusões. A maioria dos biólogos vê o AlphaFold2 pelo que ele é: uma ferramenta de previsão. Mas outros estão levando isso longe demais. Alguns biólogos celulares e bioquímicos que costumavam trabalhar com biólogos estruturais os substituíram pelo AlphaFold2 e tomam suas previsões como verdadeiras. Às vezes, os cientistas publicam artigos com estruturas de proteínas que, para qualquer biólogo estrutural, são obviamente incorretas, disse Perrakis. “E eles dizem: ‘Bem, essa é a estrutura da AlphaFold’”.

Embora o AlphaFold2 seja excelente para prever as estruturas de proteínas pequenas e simples, ele é menos preciso para prever aquelas que contêm várias partes. Ele também não é capaz de levar em conta o ambiente da proteína ou as ligações com outras moléculas, que alteram a forma de uma proteína na natureza. Às vezes, uma proteína precisa estar cercada por determinados íons, sais ou metais para se dobrar adequadamente.

Há também vários tipos de proteínas dinâmicas que o AlphaFold2 prevê de forma ruim, mas que não são menos importantes em termos de função. As proteínas que mudam de forma, também conhecidas como proteínas de troca de dobras, não são estáticas: suas formas mudam à medida que interagem com outras moléculas. Algumas se dobram em formas dramaticamente diferentes, apesar de terem a mesma sequência de aminoácidos.

Em comparação com as centenas de milhares de proteínas estáticas e de estrutura única com as quais o algoritmo do DeepMind foi treinado, há apenas cerca de 100 exemplos de proteínas que mudam de dobra, embora certamente existam mais.

Complexidade celular

O interior das células é complicado e caótico. A membrana externa de uma célula envolve um ambiente bioquímico densamente lotado de partes moleculares - proteínas, moléculas de sinalização, RNA mensageiro, organelas e muito mais. As proteínas se ligam umas às outras e a outras moléculas, o que altera suas formas e funções.

A capacidade do AlphaFold2 de prever a estrutura de uma única proteína não leva os biólogos nem perto de compreender as proteínas nesse intrincado ambiente nativo. Mas essa é a direção que o campo está tomando agora. Os gigantes da inteligência artificial da ciência das proteínas, o Google DeepMind e o Institute for Protein Design de David Baker, estão agora desenvolvendo seus algoritmos de aprendizagem profunda para prever as estruturas que as proteínas assumem ao interagir com outras moléculas.

Na primavera de 2024, ambos publicaram artigos descrevendo desenvolvimentos semelhantes nessa área. As atualizações de seus algoritmos - lançados com os novos nomes AlphaFold3 e RoseTTAFold All-Atom - permitem que eles prevejam as estruturas de proteínas ligadas umas às outras, ao DNA, ao RNA e a outras moléculas pequenas.

As proteínas não trabalham sozinhas: elas interagem constantemente com outras moléculas. Essa representação de uma paisagem celular é feita de modelos de proteínas reais e outras moléculas em "uma tentativa de visualizar a grande complexidade e a beleza da coreografia molecular da célula", escreveu seu criador, Gael McGill. Foto: Evan Ingersoll and Gaël McGill, PhD/Digizyme Inc

Os biólogos estão apenas começando a testar essas atualizações. Até agora, o AlphaFold3 é muito mais preciso do que o RoseTTAFold All-Atom, disse AlQuraishi - mas não é um salto tão grande quanto um “momento AlphaFold2″. Para algumas macromoléculas, como as estruturas de RNA, sua precisão permanece abaixo da de outros sistemas e experimentos baseados em física.

Mesmo assim, os novos algoritmos são um passo na direção certa. As interações entre proteínas e outras moléculas são essenciais para seu funcionamento nas células. Para desenvolver medicamentos que possam se acoplar às proteínas e alterar sua atividade conforme desejado, os pesquisadores precisam entender como são esses complexos. No entanto, é improvável que qualquer um dos algoritmos leve a novos medicamentos em breve, disse Adams. “Ambos os métodos ainda são limitados em sua precisão, [mas] ambos são melhorias significativas em relação ao que era possível.”

Há uma outra grande mudança no novo produto da DeepMind. O código subjacente do AlphaFold2 era de código aberto para que outros pesquisadores pudessem estudar o algoritmo e refazê-lo para seus próprios projetos. No entanto, em vez de compartilhar o código-fonte do AlphaFold3, o Google optou, até o momento, por protegê-lo como um segredo comercial. “Pelo menos por enquanto, ninguém pode executá-lo e usá-lo como fizeram com o [AlphaFold2]”, disse AlQuraishi.

Mesmo antes do lançamento do AlphaFold3, os pesquisadores estavam testando o AlphaFold2 para ver se ele poderia fornecer informações úteis sobre proteínas em diferentes conformações. Brenda Rubenstein, professora associada de química e física da Brown University, estava interessada em quinases, um tipo de proteína que ativa outras proteínas. Especificamente, ela queria entender o mecanismo de uma quinase que causa câncer para que pudesse desenvolver medicamentos mais precisos contra ela. Seu laboratório modelou a estrutura da quinase usando uma abordagem baseada na física, que mapeia as coordenadas 3D dos átomos usando as leis de Newton. Isso levou dois anos e meio.

“Há cerca de um ano, dissemos: podemos fazer isso mais rápido?” disse Rubenstein. Eles tentaram usar o AlphaFold2 de uma forma inovadora. Ao fornecer dados sobre proteínas relacionadas ao algoritmo, ela descobriu que ele podia prever sua quinase em diferentes conformações com mais de 80% de precisão.

A visão de alguém de fora

Quando o CASP 2020 chegou, muitos pesquisadores esperavam que um avanço na previsão de estruturas viesse por meio da inteligência artificial. “Tudo estava caminhando nessa direção”, disse Townshend. Mas eles não esperavam que isso viesse de uma empresa de tecnologia multibilionária, e não esperavam que fosse tão cedo. Alguns disseram que o AlphaFold2 não era uma façanha da nova ciência, mas sim uma engenharia inteligente. Alguns ficaram surpresos com o fato de os algoritmos de David Baker não terem levado o troféu. Outros ficaram menos surpresos por causa dos recursos inigualáveis do Google DeepMind.

Cerca de 100 laboratórios participam do CASP todos os anos e, embora tenham começado a adotar tecnologias de IA, eles “provavelmente não tinham a experiência que o DeepMind tinha, nem o poder de computação”, disse Thornton. O DeepMind “tinha acesso a um poder de computação basicamente ilimitado”.

Ela também especulou que a falta de conhecimento especializado do Google em ciência de proteínas pode tê-los liberado de forma criativa. “Eles tinham um único objetivo”, disse Thornton, e se concentraram na criação de uma excelente rede neural. Os biólogos de proteínas tinham bagagem. Enquanto trabalhavam em suas ferramentas de IA, eles queriam capturar a física molecular de nível atômico e a química envolvida no dobramento de proteínas. O DeepMind tinha uma abordagem diferente: transformaremos os dados de sequência em uma estrutura 3D, e não importa como chegaremos lá.

O novo mundo

Setenta anos atrás, acreditava-se que as proteínas eram uma substância gelatinosa. O campo da biologia de proteínas é “mais empolgante agora do que era antes do AlphaFold”, disse Perrakis. A empolgação vem da promessa de reviver a descoberta de medicamentos com base na estrutura, da aceleração na criação de hipóteses e da esperança de compreender as interações complexas que ocorrem nas células.

“É como a revolução genômica”, disse AlQuraishi. Há tantos dados, e os biólogos, seja em seus laboratórios úmidos ou na frente de seus computadores, estão apenas começando a descobrir o que fazer com tudo isso.

Mas, assim como outras descobertas de inteligência artificial que estão surgindo em todo o mundo, essa pode ter um teto.

O sucesso do AlphaFold2 se baseou na disponibilidade de dados de treinamento - centenas de milhares de estruturas de proteínas meticulosamente determinadas pelas mãos de experimentadores pacientes. Embora o AlphaFold3 e os algoritmos relacionados tenham demonstrado algum sucesso na determinação das estruturas de compostos moleculares, sua precisão está aquém da de seus predecessores de proteína única. Isso se deve, em parte, ao fato de haver muito menos dados de treinamento disponíveis.

O problema de dobragem de proteínas foi “quase um exemplo perfeito para uma solução de IA”, disse Thornton, porque o algoritmo poderia ser treinado em centenas de milhares de estruturas de proteínas coletadas de maneira uniforme. No entanto, o Protein Data Bank pode ser um exemplo incomum de compartilhamento organizado de dados em biologia. Sem dados de alta qualidade para treinar algoritmos, eles não farão previsões precisas.

“Tivemos sorte”, disse Jumper. “Encontramos o problema no momento em que ele estava pronto para ser resolvido.”

Ninguém sabe se o sucesso do deep learning na solução do problema de dobramento de proteínas será levado a outros campos da ciência ou mesmo a outras áreas da biologia. Mas alguns, como AlQuraishi, estão otimistas. “O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”, disse ele. Os químicos, por exemplo, precisam realizar cálculos caros do ponto de vista computacional. Com a aprendizagem profunda, esses cálculos já estão sendo feitos até um milhão de vezes mais rápido do que antes, disse AlQuraishi.

A inteligência artificial pode claramente avançar em tipos específicos de questões científicas. Mas ela pode levar os cientistas apenas até certo ponto no avanço do conhecimento. “Historicamente, a ciência tem se dedicado a compreender a natureza”, disse AlQuraishi - os processos que fundamentam a vida e o universo. Se a ciência avançar com ferramentas de aprendizagem profunda que revelam soluções e nenhum processo, será que isso é realmente ciência?

O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”

Mohammed AlQuraishi, da Universidade de Columbia

Se muitos pesquisadores decidirem desistir de compreender os processos da natureza, então a inteligência artificial não terá mudado apenas a ciência - ela terá mudado os cientistas também.

A próxima reunião do CASP será realizada em dezembro de 2024 nas águas do Mar do Caribe. Os ventos são cordiais, como provavelmente será a conversa. O barulho já diminuiu há muito tempo - pelo menos em voz alta. Não se sabe como será a competição deste ano. Mas se os últimos CASPs são alguma indicação, Moult sabe que deve esperar apenas uma coisa: “surpresas”.

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How AI Revolutionized Protein Science, but Didn’t End It.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Em dezembro de 2020, quando os bloqueios da pandemia impossibilitaram reuniões presenciais, centenas de cientistas da computação se reuniram em frente às suas telas para assistir ao desenrolar de uma nova era da ciência.

Na conferência, realizada a cada dois anos, os cientistas colocaram à prova suas mais recentes ferramentas de dobramento de proteínas. Mas uma solução sempre esteve fora de alcance. Alguns deles haviam passado toda a sua carreira tentando melhorar cada vez mais essas previsões. Essas competições foram marcadas por passos de bebê, e os pesquisadores tinham poucos motivos para pensar que 2020 seria diferente.

Eles estavam errados quanto a isso.

Naquela semana, um recém-chegado à comunidade de ciência de proteínas chamado John Jumper apresentou uma nova ferramenta de inteligência artificial, o AlphaFold2, que surgiu nos escritórios do Google DeepMind, o braço de inteligência artificial (IA) da empresa de tecnologia em Londres. No Zoom, ele apresentou dados que mostravam que os modelos preditivos do AlphaFold2 de estruturas de proteínas em 3D eram mais de 90% precisos - cinco vezes melhores do que os de seu concorrente mais próximo.

Em um instante, o problema de dobragem de proteínas passou de impossível a indolor. O sucesso da inteligência artificial onde a mente humana havia se atrapalhado abalou a comunidade de biólogos. “Fiquei em choque”, disse Mohammed AlQuraishi, biólogo de sistemas do Programa de Genômica Matemática da Universidade de Columbia, que participou da reunião. “Muitas pessoas estavam em negação.”

Mas, nas observações finais da conferência, seu organizador, John Moult, deixou pouca margem para dúvidas: O AlphaFold2 havia “resolvido em grande parte” o problema de dobramento de proteínas - e mudado a ciência das proteínas para sempre. Sentado em frente a uma estante de livros em seu escritório em casa, vestindo uma gola alta preta e clicando em seus slides no Zoom, Moult falou em um tom animado, mas também ameaçador. “Isso não é um fim, mas um começo”, disse ele.

Isso foi há três anos e meio. Finalmente é possível começar a responder a essa questão.

AlphaFold3, versão mais recente da IA do Google DeepMind, foi lançado em maio deste ano  Foto: Divulgação/Google DeepMind

Talvez o maior impacto do AlphaFold2 tenha sido chamar a atenção dos biólogos para o poder da inteligência artificial. E seu sucessor, o AlphaFold3, que foi anunciado em maio de 2024, passou para a próxima fase da previsão biológica ao modelar as estruturas das proteínas em combinação com outras moléculas, como DNA ou RNA.

“É a maior história de ‘aprendizado de máquina na ciência’ que já existiu”, disse AlQuraishi.

Entretanto, ainda há grandes lacunas que a inteligência artificial não preencheu. Essas ferramentas não conseguem simular como as proteínas mudam ao longo do tempo ou modelá-las no contexto em que existem: dentro das células. “O AlphaFold mudou tudo e nada”, disse Paul Adams, biólogo estrutural que desenvolve algoritmos para modelar as estruturas de biomoléculas no Lawrence Berkeley National Laboratory.

Esta é a história de como a equipe de Jumper no Google DeepMind conseguiu realizar seu golpe na ciência das proteínas e o que isso significa para o futuro da inteligência artificial na biologia.

As proteínas são moléculas que se apresentam em centenas de milhões de formas diferentes. Cada uma delas tem uma função biológica específica, desde o transporte de oxigênio pelo sangue até o desencadeamento de reações químicas. Em geral, a função é definida por sua forma ou estrutura. Foto: Quanta Magazine

Parte 1

Formulação do problema

Uma longa cadeia de moléculas de aminoácidos não tem função até que se dobre espontaneamente em sua forma inata, que os biólogos chamam de estrutura. A estrutura de uma proteína determina como ela se liga ou interage com outras moléculas e, portanto, define seu papel em uma célula.

“Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca”, disse AlQuraishi. “É onde tudo acontece.”

Se as proteínas não realizassem esse processo de dobragem extremamente bem, uma cascata de desastres se espalharia pelo corpo. Uma proteína dobrada ou desdobrada incorretamente pode levar à toxicidade e à morte celular. Muitas doenças e distúrbios, como a anemia falciforme, são causados por proteínas mal dobradas. E as proteínas mal dobradas podem se agregar em aglomerados que são marcas registradas de doenças neurodegenerativas como Alzheimer e Parkinson.

No entanto, ninguém sabe ao certo como ocorre o dobramento das proteínas. Como as informações da sequência nessas cadeias moleculares simples codificam a forma complexa de uma proteína? Essa é a “pergunta mais profunda que podemos fazer”, disse George Rose, professor emérito de biofísica da Universidade Johns Hopkins.

Depois que sua cadeia polipeptídica é montada, uma proteína pode se dobrar em sua estrutura em um milésimo de segundo. Com o passar do tempo, o problema do dobramento de proteínas se dividiu em novos tipos de problemas. Agora, três questões principais são colocadas: A estrutura de uma proteína pode ser prevista a partir de sua sequência de aminoácidos? Qual é o código de dobramento? E qual é o mecanismo de dobragem?

Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca. É onde tudo acontece.”

Mohammed AlQuraishi, biólogo da Universidade de Columbia

À medida que surgiam mais estruturas, a comunidade da ciência das proteínas precisava de uma maneira de organizá-las e compartilhá-las. Em 1971, o Protein Data Bank foi fundado como um arquivo de estruturas de proteínas. Disponível gratuitamente, o banco de dados tornou-se uma ferramenta confiável para qualquer pessoa que precisasse conhecer a estrutura de uma proteína para investigar uma questão biológica.

Quando o Protein Data Bank foi inaugurado, ele continha as estruturas de sete proteínas. Quando o Google DeepMind o utilizou para treinar o AlphaFold2, quase 50 anos depois, ele continha mais de 140.000 - cada uma delas laboriosamente decodificada pelos cientistas conhecidos como biólogos estruturais.

Conferência tem início

No início da década de 1990, John Moult, pesquisador da Universidade de Maryland, e seu colega Krzysztof Fidelis tiveram uma ideia para trazer disciplina ao caos do campo. Eles criaram um experimento científico comunitário que chamaram de Avaliação Crítica da Previsão de Estrutura, ou CASP, na sigla em inglês.

A ideia era simples. Como organizadores do CASP, Moult e Fidelis publicariam uma lista de sequências de aminoácidos para proteínas cujas estruturas tivessem sido resolvidas recentemente e fornecidas a eles por experimentalistas, mas cujos resultados ainda não tivessem sido publicados. Em seguida, grupos de computação de todo o mundo fariam o possível para prever a estrutura da proteína usando o método que desejassem. Um grupo independente de cientistas avaliaria os modelos comparando suas respostas com as estruturas confirmadas experimentalmente.

John Moult foi cofundador do experimento CASP (Critical Assessment of Structure Prediction) para forçar a si mesmo e a outros biólogos computacionais a testar seus modelos computacionais de proteínas em comparação com estruturas de proteínas determinadas experimentalmente. Foto: Quanta Magazine

Em 1996, após o término do segundo CASP, um jovem chamado David Baker pediu a David Jones, professor de bioinformática da University College London, para dividir um táxi até o aeroporto. Baker havia assistido à palestra de Jones e estava trabalhando em seu próprio modelo computacional. Ele não estava pronto para esse CASP, mas queria conversar sobre ele. Jones ouviu suas ideias no táxi e não esperava vê-lo novamente.

Na competição seguinte, em 1998, Baker abriu as portas com seu algoritmo Rosetta. Ele se tornou “o homem a ser batido”, disse Jones.

Algoritmos como o Rosetta modelaram as interações entre os átomos das moléculas de aminoácidos para prever como elas se dobrariam. Eles “mostraram que realmente era possível prever a estrutura das proteínas”, disse Baker. “Mas não era bom ou preciso o suficiente para ser útil.”

Os biólogos computacionais aprimoraram as ferramentas estatísticas. Em 2016, a precisão da previsão de contatos subiu para 47%. Dois anos depois, chegou a 70%. O algoritmo de Baker se baseou nesse sucesso: Em 2014, o Rosetta produziu duas estruturas de proteínas tão precisas que um avaliador do CASP achou que Baker poderia ter resolvido o problema de dobramento de proteínas.

No entanto, isso levou o campo apenas até certo ponto. A coevolução exigia uma abundância de proteínas semelhantes para comparação, e os experimentalistas não estavam resolvendo estruturas de proteínas com rapidez suficiente para suprir as necessidades dos computacionalistas.

David Baker, que agora é um dos maiores especialistas em design de proteínas do mundo, foi o homem a ser batido no CASP com seu algoritmo de alto desempenho chamado Rosetta. Foto: Divulgação/BBVA Foundation

Parte 2

Fora das profundezas

Em 2016, David Jones teve um vislumbre do futuro em um novo artigo publicado na Nature. Pesquisadores do Google DeepMind, uma equipe de inteligência artificial sediada em Londres, detalharam como seu algoritmo, que usava um método conhecido como aprendizagem profunda, havia vencido um campeão humano em um antigo jogo de tabuleiro chamado Go.

Jones ficou surpreso. “As coisas estão acontecendo”, ele se lembra de ter pensado na época. “Eu realmente vou ter que entrar nessa aprendizagem profunda”.

No mesmo ano, quando o cofundador da DeepMind, Demis Hassabis, estava em Seul assistindo seu sistema de IA AlphaGo vencer um campeão mundial humano no antigo jogo de Go, ele se perguntou: se os pesquisadores do DeepMind puderam escrever um algoritmo para imitar a intuição dos mestres do Go, eles não poderiam escrever um para imitar a intuição dos jogadores do Foldit, um jogo que permitia “brincar” com a estrutura de moléculas, que não sabiam nada sobre biologia, mas podiam dobrar proteínas?

Em pouco tempo, os grupos de estrutura de proteínas começaram a se envolver com deep learning. Mohammed AlQuraish, um biólogo molecular, e sua equipe foram os primeiros a desenvolver uma abordagem capaz de prever diretamente a estrutura da proteína exclusivamente com redes neurais, no que é chamado de método “ponta a ponta” - só que não funcionou muito bem. Outros se perguntaram como poderiam mergulhar em uma nova abordagem que parecia tão importante.

Em 2016, o AlphaGo, um sistema de IA do Google DeepMind, derrotou Lee Sedol (à direita), o campeão mundial do antigo jogo de Go. Sua capacidade de imitar a intuição humana chamou a atenção dos biólogos para o potencial da aprendizagem profunda na ciência das proteínas. Foto: Divulgação/Google DeepMind

“Eu não sabia exatamente o que queria fazer com deep learning, mas percebi que precisava estar fazendo deep learning”, disse Jones.

Jones havia começado a escrever pedidos de subsídios para encontrar seu caminho quando recebeu um e-mail do Google DeepMind. Eles perguntaram a Jones sobre a competição CASP e ofereceram ajuda. “Eu simplesmente presumi que eles queriam dizer: temos muito poder computacional”, disse Jones.

Depois que ele os conheceu, ficou óbvio que o Google tinha ambições maiores. Mas, para realizá-las, o gigante da tecnologia precisaria de mais inteligência científica.

Um novo jogador em campo

Em 2016, quando Jones começou a trabalhar como consultor para o Google DeepMind em um projeto que mais tarde seria conhecido como AlphaFold, John Jumper estava concluindo seu doutorado em química teórica na Universidade de Chicago.

Como estudante de graduação na Universidade de Vanderbilt, ele participou de uma colaboração com pesquisadores do Fermi National Accelerator Laboratory para estudar as estranhas propriedades das partículas subatômicas chamadas quarks. Um dia, quando estava sentado em uma mesa de almoço com os pesquisadores, ele recebeu uma notícia desagradável. “Então, esse experimento em que estamos trabalhando - quando ele será ativado?” Jumper se lembra de ter perguntado a eles. Um dos professores disse que provavelmente se aposentaria primeiro. O outro, um pouco mais velho, disse que talvez não vivesse para ver isso.

“Eu queria fazer ciência em um período de tempo um pouco mais curto do que esse”, disse Jumper. Ele havia conseguido um emprego na D.E. Shaw Research, uma empresa de Nova York que, na época, estava criando simulações básicas de proteínas. Ao compreender como as proteínas se movem e mudam, eles esperavam entender melhor os mecanismos de várias doenças, como o câncer de pulmão.

John Jumper suspeitava que os biólogos haviam estudado estruturas de proteínas suficientes para resolver o problema de dobramento de proteínas. "Eu acreditava que os dados eram suficientes", disse Jumper, que começou a trabalhar no Google DeepMind em 2017. Mas "as ideias não eram". Foto: Divulgação/Google DeepMind

Foi a primeira vez que Jumper compreendeu a importância potencial de seu trabalho. “Trata-se de saúde e de prolongar a vida das pessoas”, disse ele. Nos três anos seguintes, Jumper modelou os movimentos das proteínas nos supercomputadores da empresa, que haviam sido construídos especificamente para simular moléculas mais rapidamente. “Eu estava fazendo mais simulações em uma terça-feira de algumas semanas do que faria em todo o meu doutorado”, disse ele.

Em 2011, ele deu outra chance à pós-graduação, dessa vez estudando química teórica na Universidade de Chicago. Em 2017, Jumper ouviu um boato de que o Google DeepMind estava entrando na previsão de estruturas de proteínas. Ele tinha acabado de concluir seu doutorado, usando o aprendizado de máquina para simular o dobramento e a dinâmica de proteínas. Ele se candidatou a um emprego como cientista pesquisador.

“O projeto ainda era secreto”, disse ele. Se ele abordasse o tema do dobramento de proteínas em uma entrevista, a equipe do DeepMind mudava de assunto. “Você só pode fazer isso um certo número de vezes até que eu tenha certeza do que você está fazendo”, disse Jumper.

Em outubro de 2017, ele chegou ao escritório da DeepMind em Londres. Com a ajuda de Jones como consultor, a equipe já estava profundamente envolvida no desenvolvimento do AlphaFold. “Foi uma época muito divertida em que estávamos apenas jogando ideias na parede”, disse Jones. “Por fim, surgiu uma boa ideia central, e eles a seguiram.”

Para treinar seu algoritmo, a equipe do DeepMind usou mais de 140.000 estruturas do Protein Data Bank. Eles inseriram essas informações em uma rede convolucional, mas não mudaram muito a arquitetura da IA em si. Era “aprendizado de máquina padrão”, disse Jumper.

Em meados de 2018, o AlphaFold estava pronto para participar do CASP e competir com cientistas de proteínas de boa-fé. “É um pouco como uma corrida de Fórmula 1″, refletiu Jones. “Você acha que construiu o melhor carro, mas simplesmente não sabe o que as outras equipes construíram.” As apostas pareciam altas. A equipe da DeepMind debateu se deveria competir anonimamente; não queriam correr o risco de serem humilhados.

“Ninguém quer fracassar”, disse Jones. No meio acadêmico, isso faz parte do trabalho; você fracassa e segue em frente porque não tem escolha. “Mas, obviamente, se você for uma empresa de tecnologia multibilionária, não será bem visto se você tentar fazer algo e fracassar.”

Por fim, eles decidiram enviar seus resultados com o nome Google DeepMind. Alguns meses antes da reunião de dezembro, Jones recebeu informações dos organizadores da CASP. Eles sugeriram que a equipe do DeepMind comparecesse à reunião porque o AlphaFold tinha tido um desempenho muito bom.

A vitória não foi enorme - eles foram cerca de 2,5 vezes melhores na previsão de estruturas de proteínas em comparação com a segunda melhor equipe - mas a vitória causou uma boa impressão. “Ficou claro que algo interessante havia acontecido”, disse Moult.

Reiniciando o algoritmo

A vitória deveria ter energizado a equipe da DeepMind. Mas eles sabiam que não estavam nem perto de resolver o problema de dobramento de proteínas. Hassabis os havia reunido alguns meses antes. “Vamos tentar resolver isso ou não?” Jumper lembra-se dele dizendo. “Se não, vamos encontrar problemas nos quais possamos causar um impacto muito, muito grande.”

“Tivemos esse momento em que realmente decidimos: Vamos atrás de uma solução”, disse Jumper. Eles voltaram à prancheta de desenho.

Com sua formação diversificada em física, química, biologia e computação, Jumper trouxe insights originais para as sessões de brainstorming. Logo, ele estava liderando a equipe, que havia crescido de seis para 15 pessoas. “Havia algo muito único acontecendo”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e mais tarde fundou a Atomic AI, uma empresa de biotecnologia orientada por IA.

A sede do Google DeepMind fica em Londres. Foto: Divulgação/Buildington

Sob a liderança de Jumper, o AlphaFold foi reconstruído. A DeepMind projetou um novo tipo de arquitetura de transformador - um tipo deep learning que “impulsionou basicamente todos os avanços no aprendizado de máquina que aconteceram nos últimos cinco anos”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e, posteriormente, fundou a Atomic AI, uma empresa de biotecnologia orientada por IA. A rede neural ajustou a força de suas conexões para criar representações mais precisas dos dados, neste caso, dados de evolução e estrutura de proteínas. Ela passou esses dados por um segundo transformador para prever a estrutura 3D de uma proteína. Em seguida, o algoritmo aprimorou ainda mais a estrutura, executando-a, juntamente com alguns dos dados revisados, novamente por meio de seus transformadores mais algumas vezes.

Quando eles começaram a trabalhar no AlphaFold2, o algoritmo era “terrível, mas não tão terrível quanto esperávamos”, disse Jumper. “Ele criava hélices que se pareciam vagamente com uma proteína”. Mas à medida que o aprimoravam, notaram um enorme aumento na eficiência e na precisão de suas previsões.

O terremoto

No início do verão, Moult recebeu um e-mail de um avaliador do CASP: “Dê uma olhada nisso, é muito impressionante”. Em anexo ao e-mail, havia uma estrutura de proteína resolvida pelo Google DeepMind. Moult ficou de fato impressionado, mas achou que era um caso isolado.

Depois, ele recebeu outro e-mail, e mais outro. “Isso é estranho”, ele se lembra de ter pensado. Eram três, quatro, uma série de previsões quase perfeitas de proteínas - e todas da DeepMind. No final do verão, “percebemos rapidamente (...) que algo muito, muito extraordinário havia acontecido”, disse Moult.

Os avaliadores do CASP pontuam cada envio comparando a estrutura da proteína prevista com sua estrutura experimental comprovada. Uma pontuação perfeita, na qual o modelo e a realidade correspondem átomo por átomo, é 100. Moult sempre acreditou que qualquer valor acima de 90 indicaria que um algoritmo havia resolvido efetivamente a estrutura de uma proteína. A maioria das estruturas do AlphaFold atingiu ou ultrapassou a marca de 90.

Em dezembro de 2020, menos de um ano após o início da pandemia de Covid-19, Jumper apresentou o AlphaFold2 pelo Zoom na reunião virtual do CASP.

Como o restante dos participantes, Jones assistiu de casa. “Eu estava simplesmente preso... assistindo ao desenrolar da situação”, disse ele. “Não há saída porque seus colegas não estão por perto. ... Estamos todos confinados, não podemos ir a lugar algum.”

Parte 3

Choque e pavor

A biologia estrutural de repente ficou desestruturada. No início, houve “muita busca pela alma”, disse Silvio Tosatto, pesquisador da Universidade de Padua, que competiu no CASP desde seus primeiros dias. Alguns biólogos estruturais temiam que seus trabalhos se tornassem obsoletos. Outros ficaram na defensiva e alegaram que o AlphaFold2 não era preciso.

Os biólogos computacionais que estavam tentando resolver esse problema, alguns há décadas, acharam o momento agridoce. Em uma postagem de blog que escreveu após o CASP, AlQuraishi citou um participante que descreveu a sensação de se sentir como alguém cujo filho tivesse saído de casa pela primeira vez.

No entanto, mesmo em meio à apreensão em relação a essa nova e brilhante ferramenta, muitos cientistas ficaram entusiasmados. Aqueles que não faziam trabalho estrutural costumavam ter que colaborar com biólogos estruturais para determinar as estruturas das proteínas para seus experimentos mais amplos. Agora, eles podem simplesmente pressionar alguns botões e obter a estrutura por conta própria.

Na mídia, o AlphaFold2 tornou-se o novo e brilhante avanço da inteligência artificial que “mudaria tudo”. Mas foram necessários meses e anos para que os cientistas descobrissem o que o AlphaFold2 podia e não podia fazer. Cerca de seis meses após a palestra de Jumper, o Google DeepMind publicou seus resultados e compartilhou o código subjacente do AlphaFold2. “Quando o AlphaFold2 foi lançado, no dia seguinte estávamos tentando instalá-lo em nossos servidores de GPU”, disse Anastassis Perrakis, biólogo estrutural do Instituto do Câncer da Holanda e da Universidade de Utrecht. Os biólogos começaram a jogar.

Anastassis Perrakis contribuiu com estruturas experimentais de proteínas para o CASP, nas quais os biólogos computacionais testaram seus métodos Foto: Acervo Pessoal/Anastassis Perrakis

“Eu esperava que [o AlphaFold2] fosse cair”, disse Janet Thornton, biofísica da Universidade de Oxford. “Mas, na verdade, minha impressão é que ele tem tido um sucesso extraordinário.”

Começou a ficar claro que, em vez de ser uma ameaça, o AlphaFold2 poderia ser um catalisador para acelerar a pesquisa. Em vez de tirar o emprego dos biólogos estruturais, ela lhes proporcionou uma nova ferramenta para fazer melhor seu trabalho.

No entanto, isso não resultou imediatamente em todos os tipos de novos medicamentos, como algumas pessoas previram, e os pesquisadores logo perceberam que a ferramenta tem suas limitações. As previsões do AlphaFold2 não são perfeitas. Elas exigem validação experimental, disse Perrakis. Mas “você pode passar muito mais rápido para o estudo real das estruturas”. Agora, quando seus alunos iniciam um novo projeto, eles primeiro usam o AlphaFold2 para prever a estrutura de uma determinada proteína. Em seguida, realizam experimentos para validá-la.

Perrakis suspeita que ele e outros pesquisadores continuarão a usar a cristalografia de raios X até certo ponto. Mas, para desenvolver estruturas iniciais de proteínas, muitos estão começando a combinar previsões de aprendizagem profunda com técnicas avançadas de microscópio eletrônico, como o cryo-EM, que envolve o congelamento de amostras biológicas e seu bombardeio com elétrons. Assim, eles podem chegar às questões interessantes sobre o que suas proteínas fazem. O AlphaFold2 “turbinou” o crio-EM, disse AlQuraishi.

Essa mudança já começou. Em junho de 2022, uma edição especial da revista Science revelou a estrutura quase atômica de um complexo de poros nucleares humano. Essa estrutura maciça e complicada - formada por 30 proteínas diferentes - foi um dilema biológico durante décadas. Os cientistas usaram as previsões do AlphaFold2 para preencher as lacunas nas estruturas das proteínas que não foram resolvidas pelo cryo-EM.

Ver esse artigo, no qual outros cientistas usaram o AlphaFold2 para fazer uma descoberta biológica, foi o “momento em que eu soube que [o AlphaFold] era realmente importante”, disse Jumper.

A próxima fronteira

Quase imediatamente depois de ver a palestra de Jumper na conferência CASP de 2020, Baker voltou a trabalhar em seu algoritmo Rosetta. O Google ainda não havia compartilhado o código-fonte subjacente do AlphaFold2. Mesmo assim, “começamos a brincar com algumas das ideias que eles apresentaram”, disse Baker. No mesmo dia em que o Google DeepMind publicou o AlphaFold2 na Nature, ele e sua equipe anunciaram o RoseTTAFold, um rival altamente preciso do AlphaFold. O RoseTTAFold também usa deep learning para prever estruturas de proteínas, mas tem uma arquitetura subjacente muito diferente do AlphaFold2.

A RoseTTAFold não estava sozinha. Outros concorrentes da AlphaFold, incluindo a Meta, criaram seus próprios algoritmos para abordar a previsão da estrutura de proteínas ou problemas relacionados. Alguns, incluindo a startup de biotecnologia Atomic AI, de Townshend, foram além das proteínas e usaram o aprendizado profundo para entender as estruturas de RNA. Entretanto, no âmbito das previsões de estrutura única, ninguém conseguiu igualar a precisão do AlphaFold até o momento, disse Thornton. “Tenho certeza de que conseguirão, mas acho que será muito difícil conseguir outro momento (...) do AlphaFold como esse.”

No ano passado, David Baker (foto), com John Jumper e Demis Hassabis, recebeu o prêmio Frontiers of Knowledge Award in Biology and Biomedicine por seu trabalho que revolucionou o estudo e o design de proteínas com inteligência artificial.  Foto: Divulgação/BBVA Foundation

Exercício de confiança

É inegável que o sucesso do AlphaFold2 mudou a atitude dos biólogos em relação à inteligência artificial. Durante muito tempo, muitos biólogos experimentais desconfiavam da computação. Eles entendiam que algumas abordagens de aprendizado de máquina podem fazer com que os dados pareçam melhores do que são. Então, o Google DeepMind demonstrou “inequivocamente que é possível fazer um trabalho sério com isso”, disse AlQuraishi. Qualquer ceticismo agora é acompanhado de: “Bem, e quanto ao AlphaFold?”

Um recurso da plataforma AlphaFold2 contribui para essa confiança: ela não apenas gera um modelo 3D de uma proteína, mas também autoavalia a precisão de sua previsão, classificando diferentes partes da estrutura em uma escala de confiança de zero a 100.

Em julho de 2022, depois que o Google DeepMind divulgou as previsões de estrutura de 218 milhões de proteínas - quase todas as conhecidas no mundo - Paul Adams, biólogo estrutural, decidiu analisar os autorrelatos do AlphaFold2. Ele comparou as previsões com as estruturas resolvidas das proteínas e avaliou sua precisão de forma independente.

A “boa notícia é que, quando o AlphaFold acha que está certo, ele geralmente está muito certo”, disse Adams. “Quando ele acha que não está certo, geralmente não está.” No entanto, em cerca de 10% dos casos em que o AlphaFold2 estava “muito confiante” em sua previsão (uma pontuação de pelo menos 90 de 100 na escala de confiança), ele não deveria estar, relatou: as previsões não correspondiam ao que foi visto experimentalmente.

O fato de o sistema de IA parecer ter algum ceticismo pode inspirar uma confiança excessiva em suas conclusões. A maioria dos biólogos vê o AlphaFold2 pelo que ele é: uma ferramenta de previsão. Mas outros estão levando isso longe demais. Alguns biólogos celulares e bioquímicos que costumavam trabalhar com biólogos estruturais os substituíram pelo AlphaFold2 e tomam suas previsões como verdadeiras. Às vezes, os cientistas publicam artigos com estruturas de proteínas que, para qualquer biólogo estrutural, são obviamente incorretas, disse Perrakis. “E eles dizem: ‘Bem, essa é a estrutura da AlphaFold’”.

Embora o AlphaFold2 seja excelente para prever as estruturas de proteínas pequenas e simples, ele é menos preciso para prever aquelas que contêm várias partes. Ele também não é capaz de levar em conta o ambiente da proteína ou as ligações com outras moléculas, que alteram a forma de uma proteína na natureza. Às vezes, uma proteína precisa estar cercada por determinados íons, sais ou metais para se dobrar adequadamente.

Há também vários tipos de proteínas dinâmicas que o AlphaFold2 prevê de forma ruim, mas que não são menos importantes em termos de função. As proteínas que mudam de forma, também conhecidas como proteínas de troca de dobras, não são estáticas: suas formas mudam à medida que interagem com outras moléculas. Algumas se dobram em formas dramaticamente diferentes, apesar de terem a mesma sequência de aminoácidos.

Em comparação com as centenas de milhares de proteínas estáticas e de estrutura única com as quais o algoritmo do DeepMind foi treinado, há apenas cerca de 100 exemplos de proteínas que mudam de dobra, embora certamente existam mais.

Complexidade celular

O interior das células é complicado e caótico. A membrana externa de uma célula envolve um ambiente bioquímico densamente lotado de partes moleculares - proteínas, moléculas de sinalização, RNA mensageiro, organelas e muito mais. As proteínas se ligam umas às outras e a outras moléculas, o que altera suas formas e funções.

A capacidade do AlphaFold2 de prever a estrutura de uma única proteína não leva os biólogos nem perto de compreender as proteínas nesse intrincado ambiente nativo. Mas essa é a direção que o campo está tomando agora. Os gigantes da inteligência artificial da ciência das proteínas, o Google DeepMind e o Institute for Protein Design de David Baker, estão agora desenvolvendo seus algoritmos de aprendizagem profunda para prever as estruturas que as proteínas assumem ao interagir com outras moléculas.

Na primavera de 2024, ambos publicaram artigos descrevendo desenvolvimentos semelhantes nessa área. As atualizações de seus algoritmos - lançados com os novos nomes AlphaFold3 e RoseTTAFold All-Atom - permitem que eles prevejam as estruturas de proteínas ligadas umas às outras, ao DNA, ao RNA e a outras moléculas pequenas.

As proteínas não trabalham sozinhas: elas interagem constantemente com outras moléculas. Essa representação de uma paisagem celular é feita de modelos de proteínas reais e outras moléculas em "uma tentativa de visualizar a grande complexidade e a beleza da coreografia molecular da célula", escreveu seu criador, Gael McGill. Foto: Evan Ingersoll and Gaël McGill, PhD/Digizyme Inc

Os biólogos estão apenas começando a testar essas atualizações. Até agora, o AlphaFold3 é muito mais preciso do que o RoseTTAFold All-Atom, disse AlQuraishi - mas não é um salto tão grande quanto um “momento AlphaFold2″. Para algumas macromoléculas, como as estruturas de RNA, sua precisão permanece abaixo da de outros sistemas e experimentos baseados em física.

Mesmo assim, os novos algoritmos são um passo na direção certa. As interações entre proteínas e outras moléculas são essenciais para seu funcionamento nas células. Para desenvolver medicamentos que possam se acoplar às proteínas e alterar sua atividade conforme desejado, os pesquisadores precisam entender como são esses complexos. No entanto, é improvável que qualquer um dos algoritmos leve a novos medicamentos em breve, disse Adams. “Ambos os métodos ainda são limitados em sua precisão, [mas] ambos são melhorias significativas em relação ao que era possível.”

Há uma outra grande mudança no novo produto da DeepMind. O código subjacente do AlphaFold2 era de código aberto para que outros pesquisadores pudessem estudar o algoritmo e refazê-lo para seus próprios projetos. No entanto, em vez de compartilhar o código-fonte do AlphaFold3, o Google optou, até o momento, por protegê-lo como um segredo comercial. “Pelo menos por enquanto, ninguém pode executá-lo e usá-lo como fizeram com o [AlphaFold2]”, disse AlQuraishi.

Mesmo antes do lançamento do AlphaFold3, os pesquisadores estavam testando o AlphaFold2 para ver se ele poderia fornecer informações úteis sobre proteínas em diferentes conformações. Brenda Rubenstein, professora associada de química e física da Brown University, estava interessada em quinases, um tipo de proteína que ativa outras proteínas. Especificamente, ela queria entender o mecanismo de uma quinase que causa câncer para que pudesse desenvolver medicamentos mais precisos contra ela. Seu laboratório modelou a estrutura da quinase usando uma abordagem baseada na física, que mapeia as coordenadas 3D dos átomos usando as leis de Newton. Isso levou dois anos e meio.

“Há cerca de um ano, dissemos: podemos fazer isso mais rápido?” disse Rubenstein. Eles tentaram usar o AlphaFold2 de uma forma inovadora. Ao fornecer dados sobre proteínas relacionadas ao algoritmo, ela descobriu que ele podia prever sua quinase em diferentes conformações com mais de 80% de precisão.

A visão de alguém de fora

Quando o CASP 2020 chegou, muitos pesquisadores esperavam que um avanço na previsão de estruturas viesse por meio da inteligência artificial. “Tudo estava caminhando nessa direção”, disse Townshend. Mas eles não esperavam que isso viesse de uma empresa de tecnologia multibilionária, e não esperavam que fosse tão cedo. Alguns disseram que o AlphaFold2 não era uma façanha da nova ciência, mas sim uma engenharia inteligente. Alguns ficaram surpresos com o fato de os algoritmos de David Baker não terem levado o troféu. Outros ficaram menos surpresos por causa dos recursos inigualáveis do Google DeepMind.

Cerca de 100 laboratórios participam do CASP todos os anos e, embora tenham começado a adotar tecnologias de IA, eles “provavelmente não tinham a experiência que o DeepMind tinha, nem o poder de computação”, disse Thornton. O DeepMind “tinha acesso a um poder de computação basicamente ilimitado”.

Ela também especulou que a falta de conhecimento especializado do Google em ciência de proteínas pode tê-los liberado de forma criativa. “Eles tinham um único objetivo”, disse Thornton, e se concentraram na criação de uma excelente rede neural. Os biólogos de proteínas tinham bagagem. Enquanto trabalhavam em suas ferramentas de IA, eles queriam capturar a física molecular de nível atômico e a química envolvida no dobramento de proteínas. O DeepMind tinha uma abordagem diferente: transformaremos os dados de sequência em uma estrutura 3D, e não importa como chegaremos lá.

O novo mundo

Setenta anos atrás, acreditava-se que as proteínas eram uma substância gelatinosa. O campo da biologia de proteínas é “mais empolgante agora do que era antes do AlphaFold”, disse Perrakis. A empolgação vem da promessa de reviver a descoberta de medicamentos com base na estrutura, da aceleração na criação de hipóteses e da esperança de compreender as interações complexas que ocorrem nas células.

“É como a revolução genômica”, disse AlQuraishi. Há tantos dados, e os biólogos, seja em seus laboratórios úmidos ou na frente de seus computadores, estão apenas começando a descobrir o que fazer com tudo isso.

Mas, assim como outras descobertas de inteligência artificial que estão surgindo em todo o mundo, essa pode ter um teto.

O sucesso do AlphaFold2 se baseou na disponibilidade de dados de treinamento - centenas de milhares de estruturas de proteínas meticulosamente determinadas pelas mãos de experimentadores pacientes. Embora o AlphaFold3 e os algoritmos relacionados tenham demonstrado algum sucesso na determinação das estruturas de compostos moleculares, sua precisão está aquém da de seus predecessores de proteína única. Isso se deve, em parte, ao fato de haver muito menos dados de treinamento disponíveis.

O problema de dobragem de proteínas foi “quase um exemplo perfeito para uma solução de IA”, disse Thornton, porque o algoritmo poderia ser treinado em centenas de milhares de estruturas de proteínas coletadas de maneira uniforme. No entanto, o Protein Data Bank pode ser um exemplo incomum de compartilhamento organizado de dados em biologia. Sem dados de alta qualidade para treinar algoritmos, eles não farão previsões precisas.

“Tivemos sorte”, disse Jumper. “Encontramos o problema no momento em que ele estava pronto para ser resolvido.”

Ninguém sabe se o sucesso do deep learning na solução do problema de dobramento de proteínas será levado a outros campos da ciência ou mesmo a outras áreas da biologia. Mas alguns, como AlQuraishi, estão otimistas. “O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”, disse ele. Os químicos, por exemplo, precisam realizar cálculos caros do ponto de vista computacional. Com a aprendizagem profunda, esses cálculos já estão sendo feitos até um milhão de vezes mais rápido do que antes, disse AlQuraishi.

A inteligência artificial pode claramente avançar em tipos específicos de questões científicas. Mas ela pode levar os cientistas apenas até certo ponto no avanço do conhecimento. “Historicamente, a ciência tem se dedicado a compreender a natureza”, disse AlQuraishi - os processos que fundamentam a vida e o universo. Se a ciência avançar com ferramentas de aprendizagem profunda que revelam soluções e nenhum processo, será que isso é realmente ciência?

O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”

Mohammed AlQuraishi, da Universidade de Columbia

Se muitos pesquisadores decidirem desistir de compreender os processos da natureza, então a inteligência artificial não terá mudado apenas a ciência - ela terá mudado os cientistas também.

A próxima reunião do CASP será realizada em dezembro de 2024 nas águas do Mar do Caribe. Os ventos são cordiais, como provavelmente será a conversa. O barulho já diminuiu há muito tempo - pelo menos em voz alta. Não se sabe como será a competição deste ano. Mas se os últimos CASPs são alguma indicação, Moult sabe que deve esperar apenas uma coisa: “surpresas”.

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How AI Revolutionized Protein Science, but Didn’t End It.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Em dezembro de 2020, quando os bloqueios da pandemia impossibilitaram reuniões presenciais, centenas de cientistas da computação se reuniram em frente às suas telas para assistir ao desenrolar de uma nova era da ciência.

Na conferência, realizada a cada dois anos, os cientistas colocaram à prova suas mais recentes ferramentas de dobramento de proteínas. Mas uma solução sempre esteve fora de alcance. Alguns deles haviam passado toda a sua carreira tentando melhorar cada vez mais essas previsões. Essas competições foram marcadas por passos de bebê, e os pesquisadores tinham poucos motivos para pensar que 2020 seria diferente.

Eles estavam errados quanto a isso.

Naquela semana, um recém-chegado à comunidade de ciência de proteínas chamado John Jumper apresentou uma nova ferramenta de inteligência artificial, o AlphaFold2, que surgiu nos escritórios do Google DeepMind, o braço de inteligência artificial (IA) da empresa de tecnologia em Londres. No Zoom, ele apresentou dados que mostravam que os modelos preditivos do AlphaFold2 de estruturas de proteínas em 3D eram mais de 90% precisos - cinco vezes melhores do que os de seu concorrente mais próximo.

Em um instante, o problema de dobragem de proteínas passou de impossível a indolor. O sucesso da inteligência artificial onde a mente humana havia se atrapalhado abalou a comunidade de biólogos. “Fiquei em choque”, disse Mohammed AlQuraishi, biólogo de sistemas do Programa de Genômica Matemática da Universidade de Columbia, que participou da reunião. “Muitas pessoas estavam em negação.”

Mas, nas observações finais da conferência, seu organizador, John Moult, deixou pouca margem para dúvidas: O AlphaFold2 havia “resolvido em grande parte” o problema de dobramento de proteínas - e mudado a ciência das proteínas para sempre. Sentado em frente a uma estante de livros em seu escritório em casa, vestindo uma gola alta preta e clicando em seus slides no Zoom, Moult falou em um tom animado, mas também ameaçador. “Isso não é um fim, mas um começo”, disse ele.

Isso foi há três anos e meio. Finalmente é possível começar a responder a essa questão.

AlphaFold3, versão mais recente da IA do Google DeepMind, foi lançado em maio deste ano  Foto: Divulgação/Google DeepMind

Talvez o maior impacto do AlphaFold2 tenha sido chamar a atenção dos biólogos para o poder da inteligência artificial. E seu sucessor, o AlphaFold3, que foi anunciado em maio de 2024, passou para a próxima fase da previsão biológica ao modelar as estruturas das proteínas em combinação com outras moléculas, como DNA ou RNA.

“É a maior história de ‘aprendizado de máquina na ciência’ que já existiu”, disse AlQuraishi.

Entretanto, ainda há grandes lacunas que a inteligência artificial não preencheu. Essas ferramentas não conseguem simular como as proteínas mudam ao longo do tempo ou modelá-las no contexto em que existem: dentro das células. “O AlphaFold mudou tudo e nada”, disse Paul Adams, biólogo estrutural que desenvolve algoritmos para modelar as estruturas de biomoléculas no Lawrence Berkeley National Laboratory.

Esta é a história de como a equipe de Jumper no Google DeepMind conseguiu realizar seu golpe na ciência das proteínas e o que isso significa para o futuro da inteligência artificial na biologia.

As proteínas são moléculas que se apresentam em centenas de milhões de formas diferentes. Cada uma delas tem uma função biológica específica, desde o transporte de oxigênio pelo sangue até o desencadeamento de reações químicas. Em geral, a função é definida por sua forma ou estrutura. Foto: Quanta Magazine

Parte 1

Formulação do problema

Uma longa cadeia de moléculas de aminoácidos não tem função até que se dobre espontaneamente em sua forma inata, que os biólogos chamam de estrutura. A estrutura de uma proteína determina como ela se liga ou interage com outras moléculas e, portanto, define seu papel em uma célula.

“Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca”, disse AlQuraishi. “É onde tudo acontece.”

Se as proteínas não realizassem esse processo de dobragem extremamente bem, uma cascata de desastres se espalharia pelo corpo. Uma proteína dobrada ou desdobrada incorretamente pode levar à toxicidade e à morte celular. Muitas doenças e distúrbios, como a anemia falciforme, são causados por proteínas mal dobradas. E as proteínas mal dobradas podem se agregar em aglomerados que são marcas registradas de doenças neurodegenerativas como Alzheimer e Parkinson.

No entanto, ninguém sabe ao certo como ocorre o dobramento das proteínas. Como as informações da sequência nessas cadeias moleculares simples codificam a forma complexa de uma proteína? Essa é a “pergunta mais profunda que podemos fazer”, disse George Rose, professor emérito de biofísica da Universidade Johns Hopkins.

Depois que sua cadeia polipeptídica é montada, uma proteína pode se dobrar em sua estrutura em um milésimo de segundo. Com o passar do tempo, o problema do dobramento de proteínas se dividiu em novos tipos de problemas. Agora, três questões principais são colocadas: A estrutura de uma proteína pode ser prevista a partir de sua sequência de aminoácidos? Qual é o código de dobramento? E qual é o mecanismo de dobragem?

Desde o átomo até os ecossistemas, [a estrutura da proteína] é uma espécie de língua franca. É onde tudo acontece.”

Mohammed AlQuraishi, biólogo da Universidade de Columbia

À medida que surgiam mais estruturas, a comunidade da ciência das proteínas precisava de uma maneira de organizá-las e compartilhá-las. Em 1971, o Protein Data Bank foi fundado como um arquivo de estruturas de proteínas. Disponível gratuitamente, o banco de dados tornou-se uma ferramenta confiável para qualquer pessoa que precisasse conhecer a estrutura de uma proteína para investigar uma questão biológica.

Quando o Protein Data Bank foi inaugurado, ele continha as estruturas de sete proteínas. Quando o Google DeepMind o utilizou para treinar o AlphaFold2, quase 50 anos depois, ele continha mais de 140.000 - cada uma delas laboriosamente decodificada pelos cientistas conhecidos como biólogos estruturais.

Conferência tem início

No início da década de 1990, John Moult, pesquisador da Universidade de Maryland, e seu colega Krzysztof Fidelis tiveram uma ideia para trazer disciplina ao caos do campo. Eles criaram um experimento científico comunitário que chamaram de Avaliação Crítica da Previsão de Estrutura, ou CASP, na sigla em inglês.

A ideia era simples. Como organizadores do CASP, Moult e Fidelis publicariam uma lista de sequências de aminoácidos para proteínas cujas estruturas tivessem sido resolvidas recentemente e fornecidas a eles por experimentalistas, mas cujos resultados ainda não tivessem sido publicados. Em seguida, grupos de computação de todo o mundo fariam o possível para prever a estrutura da proteína usando o método que desejassem. Um grupo independente de cientistas avaliaria os modelos comparando suas respostas com as estruturas confirmadas experimentalmente.

John Moult foi cofundador do experimento CASP (Critical Assessment of Structure Prediction) para forçar a si mesmo e a outros biólogos computacionais a testar seus modelos computacionais de proteínas em comparação com estruturas de proteínas determinadas experimentalmente. Foto: Quanta Magazine

Em 1996, após o término do segundo CASP, um jovem chamado David Baker pediu a David Jones, professor de bioinformática da University College London, para dividir um táxi até o aeroporto. Baker havia assistido à palestra de Jones e estava trabalhando em seu próprio modelo computacional. Ele não estava pronto para esse CASP, mas queria conversar sobre ele. Jones ouviu suas ideias no táxi e não esperava vê-lo novamente.

Na competição seguinte, em 1998, Baker abriu as portas com seu algoritmo Rosetta. Ele se tornou “o homem a ser batido”, disse Jones.

Algoritmos como o Rosetta modelaram as interações entre os átomos das moléculas de aminoácidos para prever como elas se dobrariam. Eles “mostraram que realmente era possível prever a estrutura das proteínas”, disse Baker. “Mas não era bom ou preciso o suficiente para ser útil.”

Os biólogos computacionais aprimoraram as ferramentas estatísticas. Em 2016, a precisão da previsão de contatos subiu para 47%. Dois anos depois, chegou a 70%. O algoritmo de Baker se baseou nesse sucesso: Em 2014, o Rosetta produziu duas estruturas de proteínas tão precisas que um avaliador do CASP achou que Baker poderia ter resolvido o problema de dobramento de proteínas.

No entanto, isso levou o campo apenas até certo ponto. A coevolução exigia uma abundância de proteínas semelhantes para comparação, e os experimentalistas não estavam resolvendo estruturas de proteínas com rapidez suficiente para suprir as necessidades dos computacionalistas.

David Baker, que agora é um dos maiores especialistas em design de proteínas do mundo, foi o homem a ser batido no CASP com seu algoritmo de alto desempenho chamado Rosetta. Foto: Divulgação/BBVA Foundation

Parte 2

Fora das profundezas

Em 2016, David Jones teve um vislumbre do futuro em um novo artigo publicado na Nature. Pesquisadores do Google DeepMind, uma equipe de inteligência artificial sediada em Londres, detalharam como seu algoritmo, que usava um método conhecido como aprendizagem profunda, havia vencido um campeão humano em um antigo jogo de tabuleiro chamado Go.

Jones ficou surpreso. “As coisas estão acontecendo”, ele se lembra de ter pensado na época. “Eu realmente vou ter que entrar nessa aprendizagem profunda”.

No mesmo ano, quando o cofundador da DeepMind, Demis Hassabis, estava em Seul assistindo seu sistema de IA AlphaGo vencer um campeão mundial humano no antigo jogo de Go, ele se perguntou: se os pesquisadores do DeepMind puderam escrever um algoritmo para imitar a intuição dos mestres do Go, eles não poderiam escrever um para imitar a intuição dos jogadores do Foldit, um jogo que permitia “brincar” com a estrutura de moléculas, que não sabiam nada sobre biologia, mas podiam dobrar proteínas?

Em pouco tempo, os grupos de estrutura de proteínas começaram a se envolver com deep learning. Mohammed AlQuraish, um biólogo molecular, e sua equipe foram os primeiros a desenvolver uma abordagem capaz de prever diretamente a estrutura da proteína exclusivamente com redes neurais, no que é chamado de método “ponta a ponta” - só que não funcionou muito bem. Outros se perguntaram como poderiam mergulhar em uma nova abordagem que parecia tão importante.

Em 2016, o AlphaGo, um sistema de IA do Google DeepMind, derrotou Lee Sedol (à direita), o campeão mundial do antigo jogo de Go. Sua capacidade de imitar a intuição humana chamou a atenção dos biólogos para o potencial da aprendizagem profunda na ciência das proteínas. Foto: Divulgação/Google DeepMind

“Eu não sabia exatamente o que queria fazer com deep learning, mas percebi que precisava estar fazendo deep learning”, disse Jones.

Jones havia começado a escrever pedidos de subsídios para encontrar seu caminho quando recebeu um e-mail do Google DeepMind. Eles perguntaram a Jones sobre a competição CASP e ofereceram ajuda. “Eu simplesmente presumi que eles queriam dizer: temos muito poder computacional”, disse Jones.

Depois que ele os conheceu, ficou óbvio que o Google tinha ambições maiores. Mas, para realizá-las, o gigante da tecnologia precisaria de mais inteligência científica.

Um novo jogador em campo

Em 2016, quando Jones começou a trabalhar como consultor para o Google DeepMind em um projeto que mais tarde seria conhecido como AlphaFold, John Jumper estava concluindo seu doutorado em química teórica na Universidade de Chicago.

Como estudante de graduação na Universidade de Vanderbilt, ele participou de uma colaboração com pesquisadores do Fermi National Accelerator Laboratory para estudar as estranhas propriedades das partículas subatômicas chamadas quarks. Um dia, quando estava sentado em uma mesa de almoço com os pesquisadores, ele recebeu uma notícia desagradável. “Então, esse experimento em que estamos trabalhando - quando ele será ativado?” Jumper se lembra de ter perguntado a eles. Um dos professores disse que provavelmente se aposentaria primeiro. O outro, um pouco mais velho, disse que talvez não vivesse para ver isso.

“Eu queria fazer ciência em um período de tempo um pouco mais curto do que esse”, disse Jumper. Ele havia conseguido um emprego na D.E. Shaw Research, uma empresa de Nova York que, na época, estava criando simulações básicas de proteínas. Ao compreender como as proteínas se movem e mudam, eles esperavam entender melhor os mecanismos de várias doenças, como o câncer de pulmão.

John Jumper suspeitava que os biólogos haviam estudado estruturas de proteínas suficientes para resolver o problema de dobramento de proteínas. "Eu acreditava que os dados eram suficientes", disse Jumper, que começou a trabalhar no Google DeepMind em 2017. Mas "as ideias não eram". Foto: Divulgação/Google DeepMind

Foi a primeira vez que Jumper compreendeu a importância potencial de seu trabalho. “Trata-se de saúde e de prolongar a vida das pessoas”, disse ele. Nos três anos seguintes, Jumper modelou os movimentos das proteínas nos supercomputadores da empresa, que haviam sido construídos especificamente para simular moléculas mais rapidamente. “Eu estava fazendo mais simulações em uma terça-feira de algumas semanas do que faria em todo o meu doutorado”, disse ele.

Em 2011, ele deu outra chance à pós-graduação, dessa vez estudando química teórica na Universidade de Chicago. Em 2017, Jumper ouviu um boato de que o Google DeepMind estava entrando na previsão de estruturas de proteínas. Ele tinha acabado de concluir seu doutorado, usando o aprendizado de máquina para simular o dobramento e a dinâmica de proteínas. Ele se candidatou a um emprego como cientista pesquisador.

“O projeto ainda era secreto”, disse ele. Se ele abordasse o tema do dobramento de proteínas em uma entrevista, a equipe do DeepMind mudava de assunto. “Você só pode fazer isso um certo número de vezes até que eu tenha certeza do que você está fazendo”, disse Jumper.

Em outubro de 2017, ele chegou ao escritório da DeepMind em Londres. Com a ajuda de Jones como consultor, a equipe já estava profundamente envolvida no desenvolvimento do AlphaFold. “Foi uma época muito divertida em que estávamos apenas jogando ideias na parede”, disse Jones. “Por fim, surgiu uma boa ideia central, e eles a seguiram.”

Para treinar seu algoritmo, a equipe do DeepMind usou mais de 140.000 estruturas do Protein Data Bank. Eles inseriram essas informações em uma rede convolucional, mas não mudaram muito a arquitetura da IA em si. Era “aprendizado de máquina padrão”, disse Jumper.

Em meados de 2018, o AlphaFold estava pronto para participar do CASP e competir com cientistas de proteínas de boa-fé. “É um pouco como uma corrida de Fórmula 1″, refletiu Jones. “Você acha que construiu o melhor carro, mas simplesmente não sabe o que as outras equipes construíram.” As apostas pareciam altas. A equipe da DeepMind debateu se deveria competir anonimamente; não queriam correr o risco de serem humilhados.

“Ninguém quer fracassar”, disse Jones. No meio acadêmico, isso faz parte do trabalho; você fracassa e segue em frente porque não tem escolha. “Mas, obviamente, se você for uma empresa de tecnologia multibilionária, não será bem visto se você tentar fazer algo e fracassar.”

Por fim, eles decidiram enviar seus resultados com o nome Google DeepMind. Alguns meses antes da reunião de dezembro, Jones recebeu informações dos organizadores da CASP. Eles sugeriram que a equipe do DeepMind comparecesse à reunião porque o AlphaFold tinha tido um desempenho muito bom.

A vitória não foi enorme - eles foram cerca de 2,5 vezes melhores na previsão de estruturas de proteínas em comparação com a segunda melhor equipe - mas a vitória causou uma boa impressão. “Ficou claro que algo interessante havia acontecido”, disse Moult.

Reiniciando o algoritmo

A vitória deveria ter energizado a equipe da DeepMind. Mas eles sabiam que não estavam nem perto de resolver o problema de dobramento de proteínas. Hassabis os havia reunido alguns meses antes. “Vamos tentar resolver isso ou não?” Jumper lembra-se dele dizendo. “Se não, vamos encontrar problemas nos quais possamos causar um impacto muito, muito grande.”

“Tivemos esse momento em que realmente decidimos: Vamos atrás de uma solução”, disse Jumper. Eles voltaram à prancheta de desenho.

Com sua formação diversificada em física, química, biologia e computação, Jumper trouxe insights originais para as sessões de brainstorming. Logo, ele estava liderando a equipe, que havia crescido de seis para 15 pessoas. “Havia algo muito único acontecendo”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e mais tarde fundou a Atomic AI, uma empresa de biotecnologia orientada por IA.

A sede do Google DeepMind fica em Londres. Foto: Divulgação/Buildington

Sob a liderança de Jumper, o AlphaFold foi reconstruído. A DeepMind projetou um novo tipo de arquitetura de transformador - um tipo deep learning que “impulsionou basicamente todos os avanços no aprendizado de máquina que aconteceram nos últimos cinco anos”, disse Raphael Townshend, que estagiou no Google DeepMind em 2019 e, posteriormente, fundou a Atomic AI, uma empresa de biotecnologia orientada por IA. A rede neural ajustou a força de suas conexões para criar representações mais precisas dos dados, neste caso, dados de evolução e estrutura de proteínas. Ela passou esses dados por um segundo transformador para prever a estrutura 3D de uma proteína. Em seguida, o algoritmo aprimorou ainda mais a estrutura, executando-a, juntamente com alguns dos dados revisados, novamente por meio de seus transformadores mais algumas vezes.

Quando eles começaram a trabalhar no AlphaFold2, o algoritmo era “terrível, mas não tão terrível quanto esperávamos”, disse Jumper. “Ele criava hélices que se pareciam vagamente com uma proteína”. Mas à medida que o aprimoravam, notaram um enorme aumento na eficiência e na precisão de suas previsões.

O terremoto

No início do verão, Moult recebeu um e-mail de um avaliador do CASP: “Dê uma olhada nisso, é muito impressionante”. Em anexo ao e-mail, havia uma estrutura de proteína resolvida pelo Google DeepMind. Moult ficou de fato impressionado, mas achou que era um caso isolado.

Depois, ele recebeu outro e-mail, e mais outro. “Isso é estranho”, ele se lembra de ter pensado. Eram três, quatro, uma série de previsões quase perfeitas de proteínas - e todas da DeepMind. No final do verão, “percebemos rapidamente (...) que algo muito, muito extraordinário havia acontecido”, disse Moult.

Os avaliadores do CASP pontuam cada envio comparando a estrutura da proteína prevista com sua estrutura experimental comprovada. Uma pontuação perfeita, na qual o modelo e a realidade correspondem átomo por átomo, é 100. Moult sempre acreditou que qualquer valor acima de 90 indicaria que um algoritmo havia resolvido efetivamente a estrutura de uma proteína. A maioria das estruturas do AlphaFold atingiu ou ultrapassou a marca de 90.

Em dezembro de 2020, menos de um ano após o início da pandemia de Covid-19, Jumper apresentou o AlphaFold2 pelo Zoom na reunião virtual do CASP.

Como o restante dos participantes, Jones assistiu de casa. “Eu estava simplesmente preso... assistindo ao desenrolar da situação”, disse ele. “Não há saída porque seus colegas não estão por perto. ... Estamos todos confinados, não podemos ir a lugar algum.”

Parte 3

Choque e pavor

A biologia estrutural de repente ficou desestruturada. No início, houve “muita busca pela alma”, disse Silvio Tosatto, pesquisador da Universidade de Padua, que competiu no CASP desde seus primeiros dias. Alguns biólogos estruturais temiam que seus trabalhos se tornassem obsoletos. Outros ficaram na defensiva e alegaram que o AlphaFold2 não era preciso.

Os biólogos computacionais que estavam tentando resolver esse problema, alguns há décadas, acharam o momento agridoce. Em uma postagem de blog que escreveu após o CASP, AlQuraishi citou um participante que descreveu a sensação de se sentir como alguém cujo filho tivesse saído de casa pela primeira vez.

No entanto, mesmo em meio à apreensão em relação a essa nova e brilhante ferramenta, muitos cientistas ficaram entusiasmados. Aqueles que não faziam trabalho estrutural costumavam ter que colaborar com biólogos estruturais para determinar as estruturas das proteínas para seus experimentos mais amplos. Agora, eles podem simplesmente pressionar alguns botões e obter a estrutura por conta própria.

Na mídia, o AlphaFold2 tornou-se o novo e brilhante avanço da inteligência artificial que “mudaria tudo”. Mas foram necessários meses e anos para que os cientistas descobrissem o que o AlphaFold2 podia e não podia fazer. Cerca de seis meses após a palestra de Jumper, o Google DeepMind publicou seus resultados e compartilhou o código subjacente do AlphaFold2. “Quando o AlphaFold2 foi lançado, no dia seguinte estávamos tentando instalá-lo em nossos servidores de GPU”, disse Anastassis Perrakis, biólogo estrutural do Instituto do Câncer da Holanda e da Universidade de Utrecht. Os biólogos começaram a jogar.

Anastassis Perrakis contribuiu com estruturas experimentais de proteínas para o CASP, nas quais os biólogos computacionais testaram seus métodos Foto: Acervo Pessoal/Anastassis Perrakis

“Eu esperava que [o AlphaFold2] fosse cair”, disse Janet Thornton, biofísica da Universidade de Oxford. “Mas, na verdade, minha impressão é que ele tem tido um sucesso extraordinário.”

Começou a ficar claro que, em vez de ser uma ameaça, o AlphaFold2 poderia ser um catalisador para acelerar a pesquisa. Em vez de tirar o emprego dos biólogos estruturais, ela lhes proporcionou uma nova ferramenta para fazer melhor seu trabalho.

No entanto, isso não resultou imediatamente em todos os tipos de novos medicamentos, como algumas pessoas previram, e os pesquisadores logo perceberam que a ferramenta tem suas limitações. As previsões do AlphaFold2 não são perfeitas. Elas exigem validação experimental, disse Perrakis. Mas “você pode passar muito mais rápido para o estudo real das estruturas”. Agora, quando seus alunos iniciam um novo projeto, eles primeiro usam o AlphaFold2 para prever a estrutura de uma determinada proteína. Em seguida, realizam experimentos para validá-la.

Perrakis suspeita que ele e outros pesquisadores continuarão a usar a cristalografia de raios X até certo ponto. Mas, para desenvolver estruturas iniciais de proteínas, muitos estão começando a combinar previsões de aprendizagem profunda com técnicas avançadas de microscópio eletrônico, como o cryo-EM, que envolve o congelamento de amostras biológicas e seu bombardeio com elétrons. Assim, eles podem chegar às questões interessantes sobre o que suas proteínas fazem. O AlphaFold2 “turbinou” o crio-EM, disse AlQuraishi.

Essa mudança já começou. Em junho de 2022, uma edição especial da revista Science revelou a estrutura quase atômica de um complexo de poros nucleares humano. Essa estrutura maciça e complicada - formada por 30 proteínas diferentes - foi um dilema biológico durante décadas. Os cientistas usaram as previsões do AlphaFold2 para preencher as lacunas nas estruturas das proteínas que não foram resolvidas pelo cryo-EM.

Ver esse artigo, no qual outros cientistas usaram o AlphaFold2 para fazer uma descoberta biológica, foi o “momento em que eu soube que [o AlphaFold] era realmente importante”, disse Jumper.

A próxima fronteira

Quase imediatamente depois de ver a palestra de Jumper na conferência CASP de 2020, Baker voltou a trabalhar em seu algoritmo Rosetta. O Google ainda não havia compartilhado o código-fonte subjacente do AlphaFold2. Mesmo assim, “começamos a brincar com algumas das ideias que eles apresentaram”, disse Baker. No mesmo dia em que o Google DeepMind publicou o AlphaFold2 na Nature, ele e sua equipe anunciaram o RoseTTAFold, um rival altamente preciso do AlphaFold. O RoseTTAFold também usa deep learning para prever estruturas de proteínas, mas tem uma arquitetura subjacente muito diferente do AlphaFold2.

A RoseTTAFold não estava sozinha. Outros concorrentes da AlphaFold, incluindo a Meta, criaram seus próprios algoritmos para abordar a previsão da estrutura de proteínas ou problemas relacionados. Alguns, incluindo a startup de biotecnologia Atomic AI, de Townshend, foram além das proteínas e usaram o aprendizado profundo para entender as estruturas de RNA. Entretanto, no âmbito das previsões de estrutura única, ninguém conseguiu igualar a precisão do AlphaFold até o momento, disse Thornton. “Tenho certeza de que conseguirão, mas acho que será muito difícil conseguir outro momento (...) do AlphaFold como esse.”

No ano passado, David Baker (foto), com John Jumper e Demis Hassabis, recebeu o prêmio Frontiers of Knowledge Award in Biology and Biomedicine por seu trabalho que revolucionou o estudo e o design de proteínas com inteligência artificial.  Foto: Divulgação/BBVA Foundation

Exercício de confiança

É inegável que o sucesso do AlphaFold2 mudou a atitude dos biólogos em relação à inteligência artificial. Durante muito tempo, muitos biólogos experimentais desconfiavam da computação. Eles entendiam que algumas abordagens de aprendizado de máquina podem fazer com que os dados pareçam melhores do que são. Então, o Google DeepMind demonstrou “inequivocamente que é possível fazer um trabalho sério com isso”, disse AlQuraishi. Qualquer ceticismo agora é acompanhado de: “Bem, e quanto ao AlphaFold?”

Um recurso da plataforma AlphaFold2 contribui para essa confiança: ela não apenas gera um modelo 3D de uma proteína, mas também autoavalia a precisão de sua previsão, classificando diferentes partes da estrutura em uma escala de confiança de zero a 100.

Em julho de 2022, depois que o Google DeepMind divulgou as previsões de estrutura de 218 milhões de proteínas - quase todas as conhecidas no mundo - Paul Adams, biólogo estrutural, decidiu analisar os autorrelatos do AlphaFold2. Ele comparou as previsões com as estruturas resolvidas das proteínas e avaliou sua precisão de forma independente.

A “boa notícia é que, quando o AlphaFold acha que está certo, ele geralmente está muito certo”, disse Adams. “Quando ele acha que não está certo, geralmente não está.” No entanto, em cerca de 10% dos casos em que o AlphaFold2 estava “muito confiante” em sua previsão (uma pontuação de pelo menos 90 de 100 na escala de confiança), ele não deveria estar, relatou: as previsões não correspondiam ao que foi visto experimentalmente.

O fato de o sistema de IA parecer ter algum ceticismo pode inspirar uma confiança excessiva em suas conclusões. A maioria dos biólogos vê o AlphaFold2 pelo que ele é: uma ferramenta de previsão. Mas outros estão levando isso longe demais. Alguns biólogos celulares e bioquímicos que costumavam trabalhar com biólogos estruturais os substituíram pelo AlphaFold2 e tomam suas previsões como verdadeiras. Às vezes, os cientistas publicam artigos com estruturas de proteínas que, para qualquer biólogo estrutural, são obviamente incorretas, disse Perrakis. “E eles dizem: ‘Bem, essa é a estrutura da AlphaFold’”.

Embora o AlphaFold2 seja excelente para prever as estruturas de proteínas pequenas e simples, ele é menos preciso para prever aquelas que contêm várias partes. Ele também não é capaz de levar em conta o ambiente da proteína ou as ligações com outras moléculas, que alteram a forma de uma proteína na natureza. Às vezes, uma proteína precisa estar cercada por determinados íons, sais ou metais para se dobrar adequadamente.

Há também vários tipos de proteínas dinâmicas que o AlphaFold2 prevê de forma ruim, mas que não são menos importantes em termos de função. As proteínas que mudam de forma, também conhecidas como proteínas de troca de dobras, não são estáticas: suas formas mudam à medida que interagem com outras moléculas. Algumas se dobram em formas dramaticamente diferentes, apesar de terem a mesma sequência de aminoácidos.

Em comparação com as centenas de milhares de proteínas estáticas e de estrutura única com as quais o algoritmo do DeepMind foi treinado, há apenas cerca de 100 exemplos de proteínas que mudam de dobra, embora certamente existam mais.

Complexidade celular

O interior das células é complicado e caótico. A membrana externa de uma célula envolve um ambiente bioquímico densamente lotado de partes moleculares - proteínas, moléculas de sinalização, RNA mensageiro, organelas e muito mais. As proteínas se ligam umas às outras e a outras moléculas, o que altera suas formas e funções.

A capacidade do AlphaFold2 de prever a estrutura de uma única proteína não leva os biólogos nem perto de compreender as proteínas nesse intrincado ambiente nativo. Mas essa é a direção que o campo está tomando agora. Os gigantes da inteligência artificial da ciência das proteínas, o Google DeepMind e o Institute for Protein Design de David Baker, estão agora desenvolvendo seus algoritmos de aprendizagem profunda para prever as estruturas que as proteínas assumem ao interagir com outras moléculas.

Na primavera de 2024, ambos publicaram artigos descrevendo desenvolvimentos semelhantes nessa área. As atualizações de seus algoritmos - lançados com os novos nomes AlphaFold3 e RoseTTAFold All-Atom - permitem que eles prevejam as estruturas de proteínas ligadas umas às outras, ao DNA, ao RNA e a outras moléculas pequenas.

As proteínas não trabalham sozinhas: elas interagem constantemente com outras moléculas. Essa representação de uma paisagem celular é feita de modelos de proteínas reais e outras moléculas em "uma tentativa de visualizar a grande complexidade e a beleza da coreografia molecular da célula", escreveu seu criador, Gael McGill. Foto: Evan Ingersoll and Gaël McGill, PhD/Digizyme Inc

Os biólogos estão apenas começando a testar essas atualizações. Até agora, o AlphaFold3 é muito mais preciso do que o RoseTTAFold All-Atom, disse AlQuraishi - mas não é um salto tão grande quanto um “momento AlphaFold2″. Para algumas macromoléculas, como as estruturas de RNA, sua precisão permanece abaixo da de outros sistemas e experimentos baseados em física.

Mesmo assim, os novos algoritmos são um passo na direção certa. As interações entre proteínas e outras moléculas são essenciais para seu funcionamento nas células. Para desenvolver medicamentos que possam se acoplar às proteínas e alterar sua atividade conforme desejado, os pesquisadores precisam entender como são esses complexos. No entanto, é improvável que qualquer um dos algoritmos leve a novos medicamentos em breve, disse Adams. “Ambos os métodos ainda são limitados em sua precisão, [mas] ambos são melhorias significativas em relação ao que era possível.”

Há uma outra grande mudança no novo produto da DeepMind. O código subjacente do AlphaFold2 era de código aberto para que outros pesquisadores pudessem estudar o algoritmo e refazê-lo para seus próprios projetos. No entanto, em vez de compartilhar o código-fonte do AlphaFold3, o Google optou, até o momento, por protegê-lo como um segredo comercial. “Pelo menos por enquanto, ninguém pode executá-lo e usá-lo como fizeram com o [AlphaFold2]”, disse AlQuraishi.

Mesmo antes do lançamento do AlphaFold3, os pesquisadores estavam testando o AlphaFold2 para ver se ele poderia fornecer informações úteis sobre proteínas em diferentes conformações. Brenda Rubenstein, professora associada de química e física da Brown University, estava interessada em quinases, um tipo de proteína que ativa outras proteínas. Especificamente, ela queria entender o mecanismo de uma quinase que causa câncer para que pudesse desenvolver medicamentos mais precisos contra ela. Seu laboratório modelou a estrutura da quinase usando uma abordagem baseada na física, que mapeia as coordenadas 3D dos átomos usando as leis de Newton. Isso levou dois anos e meio.

“Há cerca de um ano, dissemos: podemos fazer isso mais rápido?” disse Rubenstein. Eles tentaram usar o AlphaFold2 de uma forma inovadora. Ao fornecer dados sobre proteínas relacionadas ao algoritmo, ela descobriu que ele podia prever sua quinase em diferentes conformações com mais de 80% de precisão.

A visão de alguém de fora

Quando o CASP 2020 chegou, muitos pesquisadores esperavam que um avanço na previsão de estruturas viesse por meio da inteligência artificial. “Tudo estava caminhando nessa direção”, disse Townshend. Mas eles não esperavam que isso viesse de uma empresa de tecnologia multibilionária, e não esperavam que fosse tão cedo. Alguns disseram que o AlphaFold2 não era uma façanha da nova ciência, mas sim uma engenharia inteligente. Alguns ficaram surpresos com o fato de os algoritmos de David Baker não terem levado o troféu. Outros ficaram menos surpresos por causa dos recursos inigualáveis do Google DeepMind.

Cerca de 100 laboratórios participam do CASP todos os anos e, embora tenham começado a adotar tecnologias de IA, eles “provavelmente não tinham a experiência que o DeepMind tinha, nem o poder de computação”, disse Thornton. O DeepMind “tinha acesso a um poder de computação basicamente ilimitado”.

Ela também especulou que a falta de conhecimento especializado do Google em ciência de proteínas pode tê-los liberado de forma criativa. “Eles tinham um único objetivo”, disse Thornton, e se concentraram na criação de uma excelente rede neural. Os biólogos de proteínas tinham bagagem. Enquanto trabalhavam em suas ferramentas de IA, eles queriam capturar a física molecular de nível atômico e a química envolvida no dobramento de proteínas. O DeepMind tinha uma abordagem diferente: transformaremos os dados de sequência em uma estrutura 3D, e não importa como chegaremos lá.

O novo mundo

Setenta anos atrás, acreditava-se que as proteínas eram uma substância gelatinosa. O campo da biologia de proteínas é “mais empolgante agora do que era antes do AlphaFold”, disse Perrakis. A empolgação vem da promessa de reviver a descoberta de medicamentos com base na estrutura, da aceleração na criação de hipóteses e da esperança de compreender as interações complexas que ocorrem nas células.

“É como a revolução genômica”, disse AlQuraishi. Há tantos dados, e os biólogos, seja em seus laboratórios úmidos ou na frente de seus computadores, estão apenas começando a descobrir o que fazer com tudo isso.

Mas, assim como outras descobertas de inteligência artificial que estão surgindo em todo o mundo, essa pode ter um teto.

O sucesso do AlphaFold2 se baseou na disponibilidade de dados de treinamento - centenas de milhares de estruturas de proteínas meticulosamente determinadas pelas mãos de experimentadores pacientes. Embora o AlphaFold3 e os algoritmos relacionados tenham demonstrado algum sucesso na determinação das estruturas de compostos moleculares, sua precisão está aquém da de seus predecessores de proteína única. Isso se deve, em parte, ao fato de haver muito menos dados de treinamento disponíveis.

O problema de dobragem de proteínas foi “quase um exemplo perfeito para uma solução de IA”, disse Thornton, porque o algoritmo poderia ser treinado em centenas de milhares de estruturas de proteínas coletadas de maneira uniforme. No entanto, o Protein Data Bank pode ser um exemplo incomum de compartilhamento organizado de dados em biologia. Sem dados de alta qualidade para treinar algoritmos, eles não farão previsões precisas.

“Tivemos sorte”, disse Jumper. “Encontramos o problema no momento em que ele estava pronto para ser resolvido.”

Ninguém sabe se o sucesso do deep learning na solução do problema de dobramento de proteínas será levado a outros campos da ciência ou mesmo a outras áreas da biologia. Mas alguns, como AlQuraishi, estão otimistas. “O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”, disse ele. Os químicos, por exemplo, precisam realizar cálculos caros do ponto de vista computacional. Com a aprendizagem profunda, esses cálculos já estão sendo feitos até um milhão de vezes mais rápido do que antes, disse AlQuraishi.

A inteligência artificial pode claramente avançar em tipos específicos de questões científicas. Mas ela pode levar os cientistas apenas até certo ponto no avanço do conhecimento. “Historicamente, a ciência tem se dedicado a compreender a natureza”, disse AlQuraishi - os processos que fundamentam a vida e o universo. Se a ciência avançar com ferramentas de aprendizagem profunda que revelam soluções e nenhum processo, será que isso é realmente ciência?

O dobramento de proteínas é, na verdade, apenas a ponta do iceberg”

Mohammed AlQuraishi, da Universidade de Columbia

Se muitos pesquisadores decidirem desistir de compreender os processos da natureza, então a inteligência artificial não terá mudado apenas a ciência - ela terá mudado os cientistas também.

A próxima reunião do CASP será realizada em dezembro de 2024 nas águas do Mar do Caribe. Os ventos são cordiais, como provavelmente será a conversa. O barulho já diminuiu há muito tempo - pelo menos em voz alta. Não se sabe como será a competição deste ano. Mas se os últimos CASPs são alguma indicação, Moult sabe que deve esperar apenas uma coisa: “surpresas”.

História original republicada com permissão da Quanta Magazine, uma publicação editorialmente independente apoiada pela Simons Foundation. Leia o conteúdo original em How AI Revolutionized Protein Science, but Didn’t End It.

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Atualizamos nossa política de cookies

Ao utilizar nossos serviços, você aceita a política de monitoramento de cookies.